KR102470680B1 - 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기 - Google Patents

동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기 Download PDF

Info

Publication number
KR102470680B1
KR102470680B1 KR1020207027826A KR20207027826A KR102470680B1 KR 102470680 B1 KR102470680 B1 KR 102470680B1 KR 1020207027826 A KR1020207027826 A KR 1020207027826A KR 20207027826 A KR20207027826 A KR 20207027826A KR 102470680 B1 KR102470680 B1 KR 102470680B1
Authority
KR
South Korea
Prior art keywords
motion
box
candidate
delete delete
preset
Prior art date
Application number
KR1020207027826A
Other languages
English (en)
Other versions
KR20200124280A (ko
Inventor
옌지에 천
페이 왕
천 치엔
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200124280A publication Critical patent/KR20200124280A/ko
Application granted granted Critical
Publication of KR102470680B1 publication Critical patent/KR102470680B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R21/00Arrangements or fittings on vehicles for protecting or preventing injuries to occupants or pedestrians in case of accidents or other traffic risks
    • B60R21/01Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents
    • B60R21/015Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents including means for detecting the presence or position of passengers, passenger seats or child seats, and the related safety parameters therefor, e.g. speed or timing of airbag inflation in relation to occupant position or seat belt use
    • B60R21/01512Passenger detection systems
    • B60R21/01542Passenger detection systems detecting passenger motion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6256
    • G06K9/6267
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/54Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo or light sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/229Attention level, e.g. attentive to driving, reading or sleeping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

본 출원의 실시예는 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기를 개시한다. 상기 동작 인식 방법은, 얼굴을 포함하는 이미지에서의 특징을 추출하는 단계; 상기 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 추출하는 단계; 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계 - 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함함 - ; 및 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하는 단계를 포함한다.

Description

동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기
관련 출원의 상호 참조
본 출원은 출원 번호가 CN201811130798.6이고, 출원일이 2018년 09월 27일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.
본 출원은 이미지 처리 기술분야에 관한 것이고, 특히 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기에 관한 것이다.
동작 인식 기술은 최근 몇 년 동안 매우 인기 있는 응용 연구분야가 되었으며, 이 기술은 많은 분야 및 제품에서 볼 수 있고, 이런 기술의 사용은 또한 인간-기계 상호 작용의 미래 발전 추세이며, 특히 운전자 모니터링 분야에서 광범위한 응용 전망을 가지고 있다.
본 출원의 실시예는 동작 인식 기술 방안 및 운전 동작 분석 기술 방안을 제공한다.
제1 측면에 있어서, 본 출원의 실시예는 동작 인식 방법을 제공하며, 상기 동작 인식 방법은, 얼굴을 포함하는 이미지의 특징을 추출하는 단계; 상기 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하는 단계; 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계 - 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함함 - ; 및 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하는 단계를 포함한다.
제2 측면에 있어서, 본 출원의 실시예는 운전 동작 분석 방법을 제공하며, 상기 운전 동작 분석 방법은, 차량에 탑재된 카메라에 의해 운전자 얼굴 이미지를 포함하는 비디오 스트림을 획득하는 단계; 본 출원의 실시예는 상기 동작 인식 방법의 임의의 구현 방식을 통해, 상기 비디오 스트림 중 적어도 하나의 프레임 이미지의 동작 인식 결과를 획득하는 단계; 및 기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 위험 운전 프롬프트 정보를 생성하는 단계를 포함한다.
제3 측면에 있어서, 본 출원의 실시예는 동작 인식 장치를 제공하고, 상기 장치는, 얼굴을 포함하는 이미지의 특징을 추출하기 위한 제1 추출 유닛; 상기 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하기 위한 제2 추출 유닛; 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하기 위한 결정 유닛 - 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함함 - ; 및 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하기 위한 분류 유닛을 포함한다.
제4 측면에 있어서, 본 출원의 실시예는 운전 동작 분석 장치를 제공하며, 상기 장치는, 운전자 얼굴 이미지를 포함하는 비디오 스트림을 획득하기 위한 차량 탑재 카메라; 본 출원의 실시예는 상기 동작 인식 장치 중 임의의 구현 방식을 통해, 상기 비디오 스트림 중 적어도 하나의 프레임 이미지의 동작 인식 결과를 획득하기 위한 획득 유닛; 및 기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 위험 운전 프롬프트 정보를 생성하기 위한 생성 유닛을 포함한다.
제5 측면에 있어서, 본 출원의 실시예는 메모리 및 프로세서를 포함한 전자 기기를 제공하며, 상기 메모리에는 컴퓨터 실행 가능한 명령어가 저장되고, 상기 프로세서가 상기 메모리에서 컴퓨터 실행 가능 명령어를 실행할 때 본 출원의 실시예는 제1 측면 또는 제2 측면에 따른 방법을 구현한다.
제6 측면에 있어서, 본 출원의 실시예는 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 판독 가능 저장 매체에 명령어를 저장하고, 컴퓨터에서 실행될 때, 컴퓨터에서 본 출원의 실시예는 제1 측면 또는 제2 측면에 따른 방법을 실행한다.
제7 측면에 있어서, 본 출원의 실시예는 컴퓨터 명령어를 포함한 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 명령어가 기기의 프로세서에서 실행될 때, 본 출원의 실시예는 제1 측면 또는 제2 측면에 따른 방법을 실행한다.
본 출원의 실시예는 얼굴을 포함하는 이미지에서의 특징에 대해 추출을 수행함으로써, 추출된 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하여, 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하며, 다시 동작 목표 박스에 기반하여 기설정 동작의 분류를 수행하여, 동작 인식 결과를 획득한다. 본 출원의 실시예에서 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함하므로, 동작 목표 박스에 기반하여 기설정된 동작에 대해 분류하는 과정에서, 인체 부위 및 동작 상호 작용 객체를 분리하지 않고, 대응하는 얼굴의 로컬 영역 및 동작 상호 작용 객체의 동작을 전체적으로 취하고, 상기 전체에 대응하는 특징에 기반하여 분류를 수행함으로써 미세 동작에 대해 인식하고, 특히 얼굴 영역 또는 얼굴 역역 근처의 미세 동작에 대해 인식하여, 동작 인식의 정확성 및 정밀도를 향상시킬 수 있다.
본 출원의 실시예 또는 배경 기술에서의 기술방안을 보다 명확하게 설명하기 위해, 본 출원의 실시예 또는 배경 기술을 설명하는데 필요한 첨부 도면에 대해 설명한다.
도 1은 본 출원의 실시예에서 제공되는 동작 인식 방법의 흐름 모식도이다.
도 2는 본 출원의 실시예에서 제공되는 목표 동작 박스 모식도이다.
도 3은 본 출원의 실시예에서 제공되는 다른 동작 인식 방법의 흐름 모식도이다.
도 4는 본 출원의 실시예에서 제공되는 기설정 동작과 유사한 등작을 포함한 음의 샘플 이미지 모식도이다.
도 5는 본 출원의 실시예에서 제공되는 운전 동작 분석 방법의 흐름 모식도이다.
도 6은 본 출원의 실시예에서 제공되는 뉴럴 네트워크의 훈련 방법의 흐름 모식도이다.
도 7은 본 출원의 실시예에서 제공되는 물 마시기 동작 감독 박스 모식도이다.
도 8은 본 출원의 실시예에서 제공되는 통화하는 동작 감독 박스 모식도이다.
도 9는 본 출원의 실시예에서 제공되는 동작 인식 장치의 구조 모식도이다.
도 10은 본 출원의 실시예에서 제공되는 뉴럴 네트워크을 위한 훈련 컴포넌트의 구조 모식도이다.
도 11은 본 출원의 실시예에서 제공되는 운전 동작 분석 장치의 구조 모식도이다.
도 12는 본 출원의 실시예에서 제공되는 전자 기기의 하드웨어 구조 모식도이다.
아래에 본 출원의 실시예의 도면을 결합하여 본 출원의 실시예에 대해 설명한다.
도 1은 본 출원의 실시예에서 제공되는 동작 인식 방법의 흐름 모식도이고, 도 1에 도시된 바와 같이, 상기 동작 인식 방법은 다음의 단계를 포함한다.
단계 101에 있어서, 얼굴을 포함하는 이미지에서의 특징을 추출한다.
본 출원의 실시예는 주로 차량 탑승자의 동작에 대해 인식을 수행한다. 운전자를 예로 들어, 본 출원의 실시예는 차량 운전자가 차량을 운전할 때 수행한 일부 운전 동작에 대해 인식을 수행하고, 인식 결과에 따라 운전자에게 알림을 제공한다. 본 출원의 실시예를 구현하는 과정에서, 발명자는 물을 마이거나 통화하는 동작과 같은 차량에 있는 사람의 일부 얼굴 관련 미세 동작을 인식하고, 이런 동작의 인식은 인체 키 포인트의 검출 또는 인체 자체를 추정하여 구현하기 어렵거나 구현할 수 없다. 본 출원의 실시예는 처리될 이미지에 대해 특징 추출을 수행하고, 추출된 특징에 따라 처리될 이미지에서 동작 인식을 구현한다. 전술한 동작은 손 영역의 동작 및/또는 얼굴 로컬 영역의 동작, 동작 상호 작용 객체에 대한 동작일 수 있으며, 따라서, 차량 탑재 카메라를 통해 차량 탑승자에 대해 이미지 획득을 수행하여, 얼굴을 포함하는 처리될 이미지를 획득한다. 다음 처리될 이미지에 대해 컨볼루션 연산을 수행하여, 동작 특징을 추출한다.
본 출원의 선택적인 실시예에서, 상기 동작 인식 방법은, 차량에 탑재된 카메라에 의해 차량 탑승자의 이미지를 캡처하는 단계 - 이미지는 사람의 얼굴을 포함함 - 를 더 포함한다. 여기서, 상기 차량 탑승자는 상기 차량의 운전 영역의 운전자, 상기 차량의 조수석 영역의 사람, 상기 차량의 뒷좌석에 있는 사람 중 적어도 하나를 포함한다.
여기서, 상기 차량 탑재 카메라는 RGB 카메라, 적외선 카메라 또는 근적외선 카메라일 수 있다.
단계 102에 있어서, 상기 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정한다.
본 출원의 실시예는 주로 차량 탑승자의 기설정된 동작에 대한 인식을 수행하고, 예를 들어, 차량에 탑승한 사람이 운전자인 경우, 상기 기설정된 동작은 예를 들어, 운전자에 대응하는 위험 운전하는 기설정된 동작, 또는 운전의 일부 위험 동작에 대한 기설정 동작일 수 있다. 하나의 선택적인 실시형태에 있어서, 먼저 상기 기설정된 동작의 특징에 대해 정의한 후, 뉴럴 네트워크을 사용하고 정의된 특징 및 추출된 이미지에서의 특징에 따라, 기설정된 동작이 이미지에 존재하는지 여부에 대한 결정을 구현하며, 이미지에 기설정된 동작이 존재한다고 판단하는 경우, 이미지에는 기설정된 동작을 포함한 복수 개의 후보 박스를 결정한다.
본 실시예에서의 뉴럴 네트워크는 훈련되어 있으며, 즉 뉴럴 네트워크를 통해 이미지에서의 기설정된 동작의 특징을 추출할 수 있다. 본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크는 복수 개의 컨볼루션 계층으로 구성될 수 있고, 복수 개의 컨볼루션 계층을 통해 이미지에서 더욱 풍부한 정보를 추출하므로, 기설정된 동작의 판단 정확도를 향상시킬 수 있다.
본 실시예에서, 상기 추출된 특징은 손 영역, 얼굴 로컬 영역, 동작 상호 작용 객체 대응 영역 중 적어도 하나의 영역에 대응하면, 뉴럴 네트워크의 특징 추출 처리를 통해 손 영역 및 얼굴 로컬 영역의 특징 영역을 포함한 특징을 획득하며, 상기 특징 영역에 기반하여 후보 영역을 결정하고, 후보 박스을 통해 상기 후보 영역을 인식하며; 여기서, 상기 후보 박스는 예를 들어 직사각형 박스를 통해 표시될 수 있다. 유사하게, 다른 후보 박스를 통해 손 영역, 얼굴 로컬 영역 및 동작 상호 작용 객체 대응 영역을 포함하는 특징 영역을 인식한다. 이와 같이, 기설정된 동작에 대응하는 특징에 대해 특징을 추출하여, 복수 개의 후보 영역을 획득하고; 복수 개의 후보 영역에 따라, 복수 개의 후보 박스를 결정한다.
단계 103에 있어서, 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하고, 여기서, 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함한다.
본 출원의 실시예의 인식되는 동작은 얼굴와 관련되는 미세 동작이고, 이러한 유형의 얼굴과 관련되는 미세 동작의 인식은 인체 키 포인트의 검출을 통해 구현할 수 없으므로, 이러한 미세 동작에 대응하는 영역은 적어도 얼굴의 로컬 영역 및 동작 상호 작용 객체 작용 영역 등 두 가지 영역을 포함하고, 예를 들어, 얼굴의 로컬 영역 및 동작 상호 작용 객체에 대응하는 영역을 포함하거나, 또는 얼굴의 로컬 영역 및 동작 상호 작용 객체에 대응하는 영역 및 손 영역을 포함하며, 따라서, 이러한 유형의 미세 동작에 대한 인식은 복수 개의 후보 박스로부터 획득한 동작 목표 박스 내의 특징을 인식함으로써 구현할 수 있다.
본 출원의 선택적인 실시예에서, 상기 얼굴의 로컬 영역은 입 영역, 귀 영역 및 눈 영역 중 적어도 하나를 포함한다. 상기 동작 상호 작용 객체는 용기, 담배, 휴대폰, 음식, 도구, 음료수 병, 안경 및 마스크 중 적어도 하나를 포함한다.
본 출원의 선택적인 실시예에서, 상기 동작 목표 박스는 손 영역을 더 포함한다.
예를 들어, 도 2에 도시된 바와 같은 목표 동작 박스는 로컬 얼굴, 휴대폰(즉 동작 상호 작용 객체) 및 손을 포함한다. 또 다른 예를 들어, 흡연하는 동작에 대해, 목표 동작 박스는 입 및 담배(즉 동작 상호 작용 객체)를 포함할 수 있다.
본 실시예에서, 후보 박스는 기설정된 동작에 대응하는 특징 이외의 특징을 포함할 수 있거나, 기설정된 동작에 대응하는 모든 특징(임의의 기설정된 동작의 모든 특징을 지칭함)을 포함하지 않기 ‹š문에, 최종 동작 인식 결과는 영향을 받을 수 있다. 따라서, 최종 인식 결과의 정밀도를 보장하기 위해, 후보 박스의 위치에 대해 조정을 수행하고, 즉 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하며, 상기 동작 목표 박스의 위치 및 크기는 복수 개의 후보 박스에서의 적어도 일부의 후보 박스의 위치 및 크기 사이에는 편차가 있을 수 있다. 도 2에 도시된 바와 같이, 기설정된 동작에 대응하는 특징의 위치 및 크기에 따라, 대응하는 후보 박스의 위치 오프셋 및 스케일 인자를 결정할 수 있으며, 위치 오프셋 및 스케일 인자에 따라 후보 박스의 위치 및 크기를 조정함으로써, 조정된 동작 목표 박스는 기설정된 동작에 대응하는 특징만 포함하고, 기설정된 동작에 대응하는 모든 특징을 포함한다. 이를 기반으로, 각 후보 박스의 위치 및 크기에 대해 조정을 수행함으로써, 조정된 후보 박스를 동작 목표 박스로 결정한다. 이해할 수 있는 것은, 조정된 복수 개의 후보 박스를 하나의 후보 박스로 중첩할 수 있고, 중첩된 후보 박스를 동작 목표 박스로 결정한다.
단계 104에 있어서, 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득한다.
본 출원의 선택적인 실시예에서, 상기 기설정된 동작은 통화, 흡연, 물/음료 마시기, 음식 먹기, 도구 사용, 안경 착용, 메이크업 중 적어도 하나를 포함한다.
본 실시예에서, 상기 동작 목표 박스에 포함된 기설정된 동작에 대응하는 특징에 기반하여 기설정된 동작에 대해 분류를 수행할 수 있다. 하나의 실시형태로서, 동작 분류를 위한 뉴럴 네트워크는 상기 동작 목표 박스 내에 포함된 기설정된 동작에 대응하는 특징에 대해 분류 처리를 수행하여, 특징에 대응하는 기설정된 동작의 분류 인식 결과를 획득한다.
본 출원의 실시예의 동작 인식 방법을 사용하여, 얼굴을 포함하는 이미지에서의 특징에 대해 추출을 수햄함으로써, 추출된 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스로 결정하고, 다시 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하며, 목표 동작 박스에 기반하여 기설정된 동작의 분류를 수행한다. 본 출원의 실시예에서 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함하기 때문에, 동작 목표 박스에 기반하여 기설정된 동작에 대해 분류하는 과정에서, 인체 부위 및 동작 상호 작용 객체를 분리하지 않고, 대응하는 얼굴의 로컬 영역 및 동작 상호 작용 객체의 동작을 전체로 취하고, 상기 전체에 대응하는 특징에 기반하여 분류를 수행하며, 따라서 미세 동작에 대해 인식하고, 특히 얼굴 영역 또는 얼굴 역역 근처의 미세 동작에 대해 인식하여, 인식의 정확성 및 정밀도를 향상시킨다.
도 3은 본 출원의 실시예에서 제공되는 다른 동작 인식 방법의 흐르 모식도이고, 도 3에 도시된 바와 같이, 상기 동작 인식 방법은 다음의 단계를 포함다.
단계 301에 있어서, 처리될 이미지를 획득하고, 상기 처리될 이미지는 얼굴을 포함한다.
본 출원의 선택적인 실시예에서, 상기 처리될 이미지를 획득하는 단계는, 차량 탑재 카메라를 통해 차량 탑승자에 대해 촬영을 수행하여 처리될 이미지를 회득하거나, 차량 탑재 카메라를 통해 차량 탑승자에 대해 비디오 캡처를 수행하고, 캡처된 비디오의 프레임 이미지를 처리될 이미지로 사용하는 단계를 포함할 수 있다. 여기서, 상기 차량 탑승자는 상기 차량의 운전 영역의 운전자, 상기 차량의 조수석 영역의 사람, 상기 차량의 뒷좌석에 있는 사람 중 적어도 하나를 포함한다. 상기 차량 탑재 카메라는 RGB 카메라, 적외선 카메라 또는 근적외선 카메라일 수 있다.
RGB 카메라는 세 가지 상이한 케이블로써 세 가지 기본 색상 구성 요소를 제공하고, 이러한 유형의 카메라는 일반적으로 세 개의 독립적인 CCD (Charge Coupled Device) 센서를 사용하여 세 가지 색상 신호를 얻으며, RGB 카메라는 매우 정확한 컬러 이미지 획득을 수행하는데 자주 사용된다.
실제 환경의 빛은 복잡하고, 차량 내의 빛은 더욱 복잡하며, 빛의 강도는 촬영 품질에 직접적인 영향을 미치므로, 특히 차량 내 조도가 낮은 경우, 일반 카메라는 선명한 사진 또는 비디오를 획득할 수 없어, 이미지 또는 비디오는 일부 유용한 정보가 손실되어, 후속 처리에 영향을 미치게 된다. 그러나 적외선 카메라는 촬영 대상을 향해 적외선을 방출한 후, 반사된 적외선에 따라 영상을 촬영할 수 있어, 일반 카메라가 저화질로 이미지를 촬영하거나 저조도 또는 어두운 조건에서 일반 카메라의 낮은 화질 또는 비정상적인 촬영 문제를 해결할 수 있다. 이를 기반으로, 본 실시예에서, 일반 카메라 또는 적외선 카메라를 설치할 수 있고, 광도가 기설정 값보다 큰 경우, 일반 카메라를 통해 처리될 이미지를 획득하고; 광도가 기설정 값보다 작은 경우, 적외선 카메라를 통해 처리될 이미지를 획득한다.
단계 302에 있어서, 뉴럴 네트워크의 특징 추출 분기를 통해 상기 처리될 이미지 중의 특징을 추출하여, 특징 맵을 획득한다.
본 출원의 선택적인 실시예에서, 뉴럴 네트워크의 특징 추출 분기를 통해 처리될 이미지에 대해 컨볼루션 연산을 수행하여, 특징 맵을 획득한다.
일 예에서, 뉴럴 네트워크의 특징 추출 분기를 통해 처리될 이미지에 대해 컨볼루션 연산을 수행하며, 컨볼루션 커널을 사용하여 처리될 이미지에서 “슬라이딩”한다. 예를 들어, 컨볼루션 커널이 이미지의 어느 픽셀 포인트에 대응할 때, 상기 픽셀 포인트의 그레이 스케일 값과 컨볼루션 커널 상의 각각의 값을 곱하여, 모든 곱의 합을 컨볼루션 커널에 대응하는 상기 픽셀 포인트의 그레이 스케일 값으로 사용하고, 컨볼루션 커널를 다음의 픽셀 포인트로 “슬라이딩”하며, 이와 같이 유추하여, 상기 처리될 이미지 중의 모든 픽셀 포인트에 대해 컨볼루션 처리를 최종적으로 완료하여, 특징 맵을 획득한다.
이해해야 할 것은, 본 실시예의 뉴럴 네트워크의 특징 추출 분기는 복수 개의 컨볼루션 계층을 포함할 수 있고, 이전 컨볼루션 계층은 특징 추출을 통해 획득한 특징 맵을 다음 컨볼루션 계층의 입력 데이터로 사용할 수 있고, 복수 개의 컨볼루션 계층을 통해 이미지에서 더욱 풍부한 정보를 추출하여, 특징 추출된 정확도를 향상시킨다. 복수 개의 컨볼루션 계층을 포함하는 뉴럴 네트워크의 특징 추출 분기에 의해 처리될 이미지에 대해 단계별로 컨볼루션 연산을 수행함으로써, 처리될 이미지에 대응하는 특징 맵을 얻을 수 있다.
단계 303에 있어서, 상기 뉴럴 네트워크의 후보 박스 추출 분기에 의해 상기 특징 맵에서 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정한다.
본 실시예에서, 뉴럴 네트워크의 후보 박스 추출 분기는 특징 맵의 처리를 통해, 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정한다. 예를 들어, 특징 맵에서 손, 담배, 물겁, 휴대폰, 안경, 마스크, 얼궁 로컬 영역에 대응하는 특징에서 적어도 하나를 포함할 수 있으며, 상기 적어도 하나의 특징에 기반하여 복수 개의 후보 박스를 결정한다. 설명해야 할 것은, 단계 302에서, 뉴럴 네트워크의 특징 추출 분기를 통해 처리될 이미지의 특징을 추출할 수 있지만, 추출된 특징은 기설정된 동작에 대응하는 특징 이외의 다른 특징을 포함할 수 있으며, 따라서, 여기서 뉴럴 네트워크의 후보 박스 추출 분기에 의해 결정된 복수 개의 후보 박스에서, 적어도 일부의 후보 박스는 기설정된 동작에 대응하는 특징 이외의 다른 특징이 존재하거나, 또는 기설정된 동작에 대응하는 모든 특징을 포함하지 않으므로, 상기 복수 개의 후보 박스는 기설정된 동작을 포함할 수 있다.
이해해야 할 것은, 본 실시예의 뉴럴 네트워크의 후보 박스 추출 분기는 복수 개의 컨볼루션 계층을 포함할 수 있고, 이전 컨볼루션 계층에 의해 추출된 특징을 다음 컨볼루션 계층의 입력 데이터로 사용할 수 있고, 복수 개의 컨볼루션 계층을 통해 더욱 풍부한 정보를 추출함으로써, 특징 추출의 정확도를 향상시킨다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크의 후보 박스 추출 분기에 의해 상기 특징 맵에서 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하는 단계는, 상기 기설정된 동작의 특징에 따라 상기 특징 맵에서의 특징에 대해 분할을 수행하여, 복수 개의 후보 영역을 획득하는 단계; 및 상기 복수 개의 후보 영역에 따라, 복수 개의 후보 박스 및 상기 복수 개의 후보 박스에서의 각 후보 박스의 제1 신뢰도를 획득하는 단계 - 상기 제1 신뢰도는 상기 후보 박스가 상기 동작 목표 박스일 확률임 - 를 포함한다.
본 실시예에서, 뉴럴 네트워크의 후보 박스 추출 분기는 상기 특징 맵을 인식하고, 특징 맵에서 손의 특징과 얼굴 로컬 영역에 대응하는 특징, 또는 손의 특징, 액션 상호 작용 객체에 대응하는 특징 (예를 들어, 휴대폰에 대응하는 특징)을 분할하고, 특징 맵에 포함 된 얼굴 국소 영역에 대응하는 특징은 분할 된 특징에 기초하여 후보 영역을 결정하고, 후보 박스(상기 후보 박스는 예를 들어, 직사각형 박스)를 통해 상기 후보 영역을 인식한다. 이와 같이, 후보 박스를 통해 인식된 복수 개의 후보 영역을 획득한다.
본 실시예에서, 뉴럴 네트워크의 후보 박스 추출 분기는 각 후보 박스에 대응하는 제1 신뢰도를 결정할 수 있으며, 상기 제1 신뢰도는 확률의 형태로 후보 박스가 목표 동작 박스일 가능성을 표시하기 위한 것이다. 뉴럴 네트워크의 후보 박스 추출 분기는 특징 맵의 처리를 통해, 복수 개의 후보 박스를 획득하는 동시에, 복수 개의 후보 박스에서의 각 후보 박스의 제1 신뢰도를 획득한다. 이해해야 할 것은, 상기 제1 신뢰도는 뉴럴 네트워크의 후보 박스 추출 분기가 후보 박스 중의 특징에 의해 획득한 후보 박스를 목표 동작 박스로 사용하는 예측값이다.
단계 304에 있어서, 상기 뉴럴 네트워크의 검출 박스 정제 분기에 의해, 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하고; 여기서, 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함한다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크의 검출 박스 정제 분기에 의해 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계는, 상기 뉴럴 네트워크의 검출 박스 정제 분기에 의해 제1 신뢰도보다 작은 제1 임계값을 갖는 후보 박스를 제거하여, 적어도 하나의 제1 후보 박스를 획득하는 단계; 상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 적어도 하나의 제2 후보 박스를 획득하는 단계; 및 상기 적어도 하나의 제2 후보 박스에 따라, 동작 목표 박스를 결정하는 단계를 포함한다.
본 실시예에서, 후보 박스를 획득하는 과정에서, 기설정된 동작과 유사한 일부 동작은 뉴럴 네트워크의 후보 박스 추출 분기에 큰 간섭을 가져올 것이다. 도 4의 왼쪽에서 오른쪽으로의 서브 이미지에서, 목표 대상은 통화, 물 마시기 및 흡연 등 동작을 순차적으로 수행하고, 이런 동작은 비슷하며, 모두 오른손을 얼굴 가까이에 두지만, 목표 대상의 손에는 휴대폰, 물컵 및 담배를 들고 있지 않지만, 뉴럴 네트워크는 목표 대상의 이러한 동작을 통화, 물 마시기 및 흡연 동작으로 잘못 인식한다. 기설정된 동작이 기설정된 위험한 운전 동작인 경우, 운전자가 차량을 운전하는 과정에서, 예를 들면, 귀 부위가 가려워 귀를 긁는 동작, 또는 다른 원인으로 입을 벌리거나 또는 입술에 손을 대는 동작이 발생할 수 있으며, 이러한 동작은 기설정된 위험한 운전 동작이 아니지만, 이러한 동작은 뉴럴 네트워크의 후보 박스 추출 분기가 후보 박스를 추출하는 과정에서 큰 간섭이 생기므로, 후속 동작의 분류에 영향을 미치고, 잘못된 동작 인식 결과를 획득한다.
본 출원의 실시예는 사전 훈련된 뉴럴 네트워크의 검출 박스의 정제 분기를 통해 제1 신뢰도가 제1 임계값보다 작은 후보 박스를 제거하여, 적어도 하나의 제1 후보 박스를 획득하고; 상기 적어도 하나의 제1 후보 박스의 제1 신뢰도는 제1 임계값보다 크거나 같다. 여기서, 후보 박스의 제1 신뢰도가 제1 임계값보다 작으면, 상기 후보 박스는 상기 동작과 유사한 후보 박스임을 나타내고, 상기 후보 박스를 제거해야 함으로써, 기설정된 동작 및 유사한 동작을 효율적으로 구분할 수 있음으로써, 오검출률을 줄여, 동작 인식 결과의 정확도를 크게 향상시킨다. 여기서, 상기 제1 임계값은 예를 들어 0.5일 수 있으며, 본 출원의 실시에들에서 상기 제1 임계값의 값은 이에 한정되지 않는다.
본 출원의 선택적인 실시예에서, 상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 적어도 하나의 제2 후보 박스를 획득하는 단계는, 상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 상기 적어도 하나의 제1 후보 박스에 대응하는 적어도 하나의 제1 특징 영역을 획득하는 단계; 및 각 제1 특징 영역에 기반하여 대응하는 제1 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하는 단계를 포함한다.
본 실시예에서, 제1 후보 박스가 위치하는 영역에서의 특징의 개수이 많을 수 있으므로, 제1 후보 박스가 위치한 영역에서의 특징을 직접적으로 사용하면 많은 양의 계산량이 발생한다. 따라서, 제1 후보 박스가 위치한 영역에서의 특징에 대해 후속 처리를 수행하기 전에, 먼저 제1 후보 박스에 대해 풀링 처리를 수행하며, 즉 제1 후보 박스가 위치한 영역에서의 특징에 대해 풀링 처리를 수행하여, 제1 후보 박스가 위치한 영역에서의 특징의 차원을 낮춤으로써, 후속 처리 과정에서 계산량에 대한 요건을 만족하여, 후속 처리의 계산량을 크게 감소시킨다. 단계 303에서 획득한 후보 영역과 유사하게, 기설정된 동작의 특징에 따라 상기 풀링 처리된 특징에 대해 분할을 수행하여, 복수 개의 제1 특징 영역을 획득한다. 이해할 수 있는 것은, 본 실시예는 제1 후보 박스에 대응하는 영역을 통해 풀링 처리를 수행함으로써, 제1 특징 영역에 대응하는 기설정된 동작의 특징은 저차원의 형태로 나타낸다.
일 예로서, 풀링 처리의 구체적인 구현 과정은 다음의 예로 구현된다.제1 후보 박스의 크기를 h*w로 표시하고, 여기서, h는 제1 후보 박스의 높이를 표시할 수 있고, w는 제1 후보 박스의 너비로 표시할 수 있으며; 획득될 특징의 목표 크기가 H*W인 경우, 상기 제1 후보 박스를 H*W 개의 격자로 분할할 수 있고, 각 격자의 크기는 (h/H)*(w/W)로 표시할 수 있으며, 그다음 각 격자 중의 픽셀 포인트의 평균 그레이 스케일 값을 계산하거나 각 격자 중의 최대 그레이 스케일 값을 결정하고, 상기 평균 그레이 스케일 값 또는 상기 최대 그레이 스케일 값을 각 격자에 대응하는 값으로 취하여, 제1 후보 박스의 풀링 처리 결과를 획득한다.
본 출원의 선택적인 실시예에서, 상기 각 제1 특징 영역에 기반하여 대응하는 제1 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하는 단계는, 상기 제1 특징 영역에서 상기 기설정된 동작에 대응하는 특징에 기반하여, 상기 기설정된 동작의 특징에 대응하는 제1 동작 특징 박스를 획득하는 단계; 상기 제1 동작 특징 박스의 기하학적 중심 좌표에 따라, 상기 적어도 하나의 제1 후보 박스의 제1 위치 오프셋을 획득하는 단계; 상기 제1 동작 특징 박스의 크기에 따라, 상기 적어도 하나의 제1 후보 박스의 제1 스케일 인자를 획득하는 단계; 및 적어도 하나의 제1 위치 오프셋 및 적어도 하나의 제1 스케일 인자에 따라 상기 적어도 하나의 제1 후보 박스의 위치 및 크기에 대해 각각 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하는 단계를 포함한다.
본 실시예에서, 후속 처리를 용이하게 하기 위해, 제1 특징 영역에서 각 기설정된 동작에 대응하는 특징은 각각 제1 동작 특징 박스를 통해 인식하고, 상기 제1 동작 특징 박스는 구체적으로 직사각형 박스일 수 있으며, 예를 들어, 직사각형 박스를 통해 제1 특징 영역에서 각 기설정된 동작에 대응하는 특징을 인식한다.
본 실시예에서, 제1 동작 특징 박스가 미리 설정된 XOY 좌표계에서의 기하학적 중심 좌표를 획득하고, 기하학적 중심 좌표에 따라 상기 제1 동작 특징 박스에 대응하는 제1 후보 박스의 제1 위치 오프셋을 결정하며; 여기서, XOY 좌표계는 일반적으로 0을 좌표 원점으로 설정하고, 수평 방향을 X축으로, X축과 수직되는 방향을 Y축으로 설정한 좌표계이다. 제1 동작 특징 박스는 기설정된 동작의 특징에 기반하여 제1 특징 영역으로부터 결정되고, 제1 특징 영역은 기설정된 동작의 특징에 기반하여 제1 후보 박스로부터 분할되어 결정되므로, 제1 동작 특징 박스의 가하학적 중심과 제1 후보 박스의 기하학적 중심은 일반적으로 일정한 편차가 존재하며, 상기 편차에 따라 제1 후보 박스의 제1 위치 오프셋을 결정한다. 일 예로서, 제 1 동작 특징 박스의 기하학적 중심과 동일한 기설정된 동작의 특징에 대응하는 제 1 후보 박스의 기하학적 중심 사이의 오프셋을 상기 제 1 후보 박스의 제 1 위치 오프셋으로 취할 수 있다.
여기서, 동일한 기설정된 동작의 특징에 대응하는 제1 후보 박스의 개수가 복수 개인 경우, 각 제1 후보 박스는 제1 위치 오프셋에 대응하고, 상기 제1 위치 오프셋은 X축 방향의 위치 오프셋 및 Y 축 방향의 오프셋을 포함한다. 예를 들어, XOY 좌표계는 제1 특징 영역의 왼쪽 상단 모서리(입력 뉴럴 네트워크의 후보 상자 구체화 분기의 방향을 참조로 사용)를 원점으로, 수평 오른쪽 방향을 X축의 양의 방향으로 사용하며, 수직 아래 방향을 Y 축의 양의 방향으로 사용한다 다른 예에서, 제1 특징 영역의 왼쪽 하단 모서리, 오른쪽 상단 모서리, 오른쪽 하단 모서리 또는 제1 특징 영역의 중심점을 원점으로 하고 수평 오른쪽 방향을 X축의 양의 방향으로 하고, 수직 아래쪽 Y측을 양의 방향으로 한다.
본 실시예에서, 획득 제1 동작 특징 박스의 사이즈, 제1 동작 특징 박스의 길이 및 너비를 구체적으로 획득하고, 제1 동작 특징 박스의 길이 및 너비에 따라 대응하는 제1 후보 박스의 제1 스케일 인자를 결정한다. 일 예에서, 제1 동작 특징 박스의 길이 및 너비, 대응하는 제1 후보 박스의 길이 및 너비에 기반하여 상기 제1 후보 박스의 제1 스케일 인자를 결정할 수 있다. 여기서, 각 제1 후보 박스는 제1 스케일 인자에 대응하고, 상이한 제1 후보 박스의 제1 스케일 인자는 동일하거나 상이할 수 있다.
본 실시예에서, 각 제1 후보 박스에 대응하는 제1 위치 오프셋 및 제1 스케일 인자에 따라 상기 제1 후보 박스 위치 및 크기에 따라 조정을 수행한다. 하나의 실시형태로서, 제1 후보 박스를 상기 제1 위치 오프셋에 따라 이동하고, 제1 후보 박스를 기하학적 중심을 중심으로 하고 제1 스케일 팩테에 따라 사이즈에 대해 조정을 수행하여, 제2 후보 박스를 획득한다. 이해해야 할 것은, 제2 후보 박스의 개수는 제1 후보 박스의 개수와 일치하다. 상기 방식을 통해 획득한 제2 후보 박스는, 가능한 작은 사이즈로 기설정된 동작의 모든 특징을 포함하여, 후속 동작의 분류 결과의 정밀도를 향상하시키는데 유리하다.
본 실시예에서, 복수 개의 제2 후보 박스에서 유사한 사이즈 및 기하학적 중심 사이의 인접한 제2 후보 박스를 결합하고, 결합된 제2 후보 박스를 동작 목표 박스로 사용한다. 이해해야 할 것은, 동일한 기설정된 동작에 대응하는 제2 후보 박스의 사이즈 및 기하학적 중심 사이의 거리는 매우 가까울 수 있으며, 따라서, 각 기설정된 동작에 대해, 하나의 동작 목표 박스에 대응할 수 있다.
일 예로서, 운전자가 통화하는 동시에 흡연하면, 획득된 처리될 이미지는 통화 및 흡연은 두 개의 기설정 동작에 대응하는 특징을 포함한다. 상기 처리 방법을 통해, 통화하는 것에 대응하는 기설정된 동작의 특징을 포함하는 후보 박스를 획득할 수 있으며, 상기 후보 박스는 손, 휴대폰 및 얼굴 로컬 영역을 포함하고, 홉연에 대응하는 기설정된 동작의 특징을 포함하는 후보 박스를 획득할 수 있으며, 상기 후보 박스는 손, 담배 및 얼굴 로컬 영역을 포함한다. 통화 동작에 대응하는 기설정된 동작의 후보 박스 및 흡연 동작에 대응하는 기설정된 동작의 후보 박스는 모두 복수 개일수 있지만, 모든 통화 동작에 대응하는 기설정된 동작의 후보 박스의 사이즈 및 기하학적 중심 사이의 거리는 유사하고, 모든 흡연 동작에 대응하는 기설정된 동작의 후보 박스의 사이즈 및 기하학적 중심 사이의 거리는 유사하며, 또한 임의의 통화 동작에 대응하는 기설정된 동작의 후보 박스의 사이즈 및 임의의 흡연 동작에 대응하는 기설정된 동작의 후보 박스의 사이즈의 차이 값은, 임의의 두 개의 통화 동작에 대응하는 기설정된 동작의 후보 박스 사이의 크기 차이 값보다 크고, 임의의 두 개의 흡연 동작에 대응하는 기설정된 동작의 후보 박스 사이의 크기 차이 값보다 크면, 임의의 통화 동작에 대응하는 기설정된 동작의 후보 박스와 임의의 흡연 동작에 대응하는 기설정된 동작의 후보 박스 사이의 기하학적 중심 사이의 거리는 임의의 두 개의 통화 동작에 대응하는 기설정된 동작의 후보 박스 사이의 가하학적 중심 사이의 거리보다 크고, 임의의 두 개의 흡연 동작에 대응하는 기설정된 동작의 후보 박스 사이의 기하학적 중심 사이의 거리보다 크다. 모든 통화 동작에 대응하는 기설정된 동작의 후보 박스를 결합하여, 하나의 동작 목표 박스를 획득하고, 모른 흡연 동작에 대응하는 기설정된 동작의 후보 박스를 결합하여, 다른 동작 목표 박스를 획득한다. 이와 같이, 두 개의 기설정된 동작에 대응하여, 두 개의 동작 목표 박스를 각각 획득한다.
단계 305에 있어서, 상기 뉴럴 네트워크의 동작 분류 분기에 의해 상기 특징 맵의 상기 동작 목표 박스에 대응하는 영역 이미지를 획득하고, 상기 영역 이미지에 기반하여 기설정된 동작의 분류를 수행하여, 동작 인식 결과를 획득한다.
본 실시예에서, 뉴럴 네트워크의 동작 분류 분기는 특징 맵에서 상기 동작 목표 동작 박스에 대응하는 영역을 분할하여, 영역 이미지를 획득하고, 상기 영역 이미지 내의 특징에 기반하여 기설정된 동작의 분류를 수행하여, 제1 동작 인식 결과를 획득하며; 모든 목표 동작 박스에 대응하는 제1 동작 인식 결과에 기반하여, 처리될 이미지에 대응하는 동작 인식 결과를 획득한다.
본 출원의 선택적인 실시예에서, 하나의 측면은, 뉴럴 네트워크의 동작 분류 분기를 통해 제1 동작 인식 결과를 획득하고, 다른 측면은, 뉴럴 네트워크의 동작 분류 분기를 통해 상기 제1 동작 인식 결과의 제2 신뢰도를 획득하여, 상기 제2 신뢰도는 상기 동작 인식 결과의 정확도를 나타낼 수 있다. 상기 모든 목표 동작 박스에 대응하는 제1 동작 인식 결과에 기반하면, 처리될 이미지에 대응하는 동작 인식 결과를 획득하는 단계는, 각 목표 동작 박스에 대응하는 제1 동작 인식 결고의 제2 신뢰도 및 기설정 임계값을 비교하여, 제2 신뢰도가 상기 기설정된 임계값보다 큰 제1 동작 결과를 획득하고, 제2 신뢰도가 상기 기설정된 임계값보다 큰 제1 동작 결과에 기반하여 상기 처리될 이미지에 대응하는 동작 인식 결과를 결정한다.
예를 들어, 차량 탑재 카마라를 통해 운전자에 대해 캡처를 수행하여, 운전자의 얼굴을 포함한 이미지를 획득하고, 처리될 이미지로 사용하여 뉴럴 네트워크에 입력한다. 처리될 이미지 중의 운전자가 “호출”의 동작에 대응된다고 가정하면, 뉴럴 네트워크의 처리에 의해 “호출”의 동작 인식 결과 및 “물 마시기”의 동작 인식 결과의 두 가지 동작 인식 결과를 획득하며, 여기서, “호출”의 동작 인식 결과의 제2 신뢰도는 0.8이고, “물 마시기”의 동작 인식 결과의 제2 신뢰도는 0.4이다. 설정된 기설정 임계값이 0.6인 경우, 상기 처리될 이미지의 동작 인식 결과는 “호출” 동작으로 결정할 수 있다.
본 실시예에서, 동작 인식 결과가 기설정된 특정 동작인 경우, 상기 동작 인식 방법은, 프롬프트 정보를 출력하는 단계를 더 포함할 수 있다. 여기서, 상기 기설정된 특정 동작은 위험 운전 동작일 수 있고, 상기 위험 운전 동작은 운전자가 차량 운전 과정에서 위험한 사고를 일으킬 수 있는 동작이다. 상기 운전 동작은 운전자에 의해 생성된 동작일 수 있고, 운전실 내에 있는 다른 사람에 의해 생성된 동작일 수 있다. 여기서, 상기 프롬프트 정보는 오디오, 비디오, 텍스트 중 적어도 하나의 방식을 통해 출력되는 것일 수 있다. 예를 들어, 단말은 차량에 있는 사람(예를 들어, 운전자 및 차량에 있는 다른 사람 중 적어도 하나)에게 프롬프트 정보를 출력하는데 사용될 수 있고, 프롬프트 정보를 출력하는 방식은 단말에서 텍스트를 표시하는 방식으로 제시하거나, 단말에서 음성 데이터를 출력하는 방식으로 제시할 수 있다. 여기서, 상기 단말은 차량에 탑재된 단말일 수 있고, 선택적으로, 단말에는 디스플레이 화면 및 오디오 출력 기능 중 적어도 하나가 장착될 수 있다.
여기서, 기설정된 특정 동작이 물 마시기, 통화, 안경 착용이고, 뉴럴 네트워크에 의해 획득된 동작 인식 결과가 상기 기설정된 특정 동작 중 어느 하나 또는 복수 개의 동작이면, 프롬프트 정보를 출력하고, 기설정된 특정 동작(예를 들어, 위험 운전 동작)의 유형도 출력할 수 있다. 기설정된 특정 동작이 검출되지 않는 경우, 프롬프트 정보를 출력하지 않거나, 기설정된 동작의 유형을 출력할 수 있다.
일 예로서, 획득된 동작 인식 결과가 기설정된 특정 동작(예를 들어, 위험 운전 동작)을 포함한 경우, 전방 시현 장치(head up display, HUD)를 통해 대화 박스를 표시할 수 있고, 표시된 내용을 통해 운전자에게 프롬프트 정보를 발송하며; 차량에 내장된 오디오 출력 오디오 출력 기능을 통해 프름프트 정보를 출력하며, 예를 들어, “운전 동작에 주의하십시오”와 같은 오디오 정보를 출력할 수 있으며; 또한 상쾌한 효과의 가스를 방출하는 방식으로 프롬프트 정보를 출력할 수 있으며, 예를 들어, 차량에 탑재된 노즐을 통해 화로수를 분무하여, 화로수의 향기가 즉각적인 느낌을 제공하면서, 운전자에 대해 제시를 수행하는 동시에, 상쾌한 효과를 구현할 수 있으며; 또한 좌석을 통해 저전류 방정하여 운전자를 자극하는 방식으로 프름프트 정보를 출력하여, 제시 및 알림 효과를 얻을 수 있다.
본 출원의 실시예는 뉴럴 네트워크의 특징 추출 분기를 통해 처리될 이미지에 대해 특징 추출을 수행하고, 뉴럴 네트워크의 후보 박스 추출 분기를 통해 추출된 특징에 따라 기설정된 동작을 포함 가능한 후보 박스를 획득하고, 뉴럴 네트워크의 검출 박스 정제 분기를 통해 동작 목표 박스를 결정하며, 마지막으로 뉴럴 네트워크의 동작 분류 분기를 통해 목표 동작 박스 중의 특징에 대해 기설정된 동작의 분류를 수행하여, 처리될 이미지의 동작 인식 결과를 획득하며; 모든 인식 과정은 처리될 이미지 중의 특징(예를 들어, 손 영역, 얼굴 로컬 영역, 동작 상호 작용 객체 대응 영역의 특징 추출)을 통해 추출하며, 이에 대해 처리를 수행함으로써, 미세 동작의 정밀한 인식을 자율적이고 신속하게 구현할 수 있다.
본 출원의 실시예는 운전 동작 분석 방법을 더 제공한다. 도 5는 본 출원의 실시예에서 제공되는 운전 동작 분석 방법의 흐름 모식도이고, 도 5에 도시된 바와 같이, 상기 운전 동작 분석 방법은 다음의 단계를 포함한다.
단계 401에 있어서, 차량에 탑재된 카메라에 의해 운전자 얼굴 이미지를 포함하는 비디오 스트림을 획득한다.
단계 402에 있어서, 상기 비디오 스트림 중 적어도 하나의 프레임 이미지의 동작 인식 결과를 획득한다.
단계 403에 있어서, 기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 위험 운전 프롬프트 정보를 생성한다.
본 실시예에서, 차량 탑재 카메라를 통해 운전자에 대해 비디오 캡처를 수행하여, 비디오 스트림을 획득하며, 비디오 스트림의 각 프레임 이미지를 처리될 이미지로 사용한다. 각 프레임 이미지를 통해 동작 인식을 수행하여, 대응하는 동작 인식 결과를 획득하고, 복수의 연속 프레임 이미지의 동작 인식 결과를 결합하고 운전자의 운전 상태에 대해 인식을 수행하여, 운전 상태가 위험 운전 동작에 대응하는 위험 운전 상태인지를 결정한다. 여기서, 복수 개의 포레임 이미지의 동작 인식의 처리 과정은 상기 실시예를 참조하며, 여기서 더이상 설명하지 않는다.
본 출원의 선택적인 실시예에서, 상기 기설정된 조건은, 기설정된 특정 동작의 발생; 기설정된 시간 내에 기설정된 동작의 발생 횟수; 상기 비디오 스트림에서 기설정된 특정 동작의 발생 유지 기간 중 적어도 하나를 포함한다.
본 실시예에서, 상기 기설정된 특정 동작은 상기 실시예 중 기설정된 동작의 분류에서 위험 운전 동작에 대응하는 기설정된 동작일 수 있으며, 예를 들어, 운전자의 물 마시기 동작, 통화 동작에 대응한다. 상기 기설정된 조건을 만족하는 동작 인식 결과에 응답하는 단계는, 동작 인식 결과가 기설정된 특정 동작을 포함하는 경우, 동작 인식 결과가 기설정된 조건을 만족한다고 결정하는 단계; 또는 동작 인식 결과가 기설정된 특정 동작을 포함하고, 기설정된 시간 내에 상기 기설정된 특정 동작이 발생한 횟수가 기설정된 개수에 도달하는 경우, 동작 인식 결과가 기설정된 조건을 만족한다고 결정하는 단계; 또는, 동작 인식 결과가 기설정된 특정 동작을 포함하고, 상기 비디오 스트림에 상기 기설정된 특정 동작의 발생 지속 시간이 기설정된 지속 시간에 도달하는 경우, 동작 인식 결과가 기설정된 조건을 만족한다고 결정하는 단계를 포함할 수 있다.
예를 들어, 운전자가 물 마시기, 통화, 안경 착용 중 임의의 하나의 동작을 검출하면, 차량에 탑재된 단말을 통해 위험 운전 프롬프트 정보를 생성할 수 있고, 기설정된 특정 동작의 유형도 출력할 수 있다. 여기서, 위험 운전 프름프트 정보를 출력하는 방식은, 차량에 탑재된 단말에 텍스트를 표시하는 방식을 통해 위험 운전 프름프트 정보를 출력하는 방식, 차량에 탑재된 단말의 오디오 출력 기능을 통해 위험 운전 프름프트 정보를 출력하는 방식을 포함할 수 있다.
본 출원의 선택적인 실시예에서, 상기 운전 동작 분석 방법은, 차량에 탑재된 듀얼 카메라가 설치된 차량의 속도를 획득하는 단계를 더 포함하며; 상기 기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 위험 운전 프롬프트 정보를 생성하는 단계는, 상기 차량의 속도가 설정된 임계값보다 큰 경우 및 상기 동작 인식 결과가 상기 기설정된 조건을 만족하는 것에 응답하여, 위험 운전 프롬프트 정보를 생성하는 단계를 포함한다.
본 실시예에서, 차량의 속도가 설정된 임계값보다 크지 않는 경우, 동작 인식 결과가 상기 기설정된 조건을 만족하더라도, 위험 운전 프름프트 정보를 생성하여 출력할 수 없다. 차량의 속도가 설정된 임계값보다 큰 경우, 동작 인식 결과가 상기 기설정된 조건을 만족하면, 위험 운전 프름프트 정보를 생성하여 출력한다.
본 실시예에서, 차량 탑재 카메라를 통해 운전자에 대해 비디오 캡처를 수행하고, 캡처된 비디오의 각 프레임 화면을 처리될 이미지로 사용한다. 카메라에 의해 캡처된 각 프레임 화면을 통해 인식을 수행하여, 대응하는 인식 결과를 획득하고, 복수 개의 연속 프레임 화면의 결과를 다시 결합하여 운전자의 동작에 대해 인식을 수행한다. 운전자가 물 마시기, 통화, 안경 착용 중 임의의 하나의 동작을 검출하면, 디스플레이 단말을 통해 운전자에게 경보를 제출하고, 위험 운전 동작의 유형을 제출한다. 경보 알림은, 팝업 대화 박스를 프롬프트하여 텍스트를 통해 경보하거나, 내장된 음성 데이터를 통해 경보하는 방식을 포함한다.
본 출원의 실시예에서 뉴럴 네트워크는 훈련 이미지 세트에 기반하여 사전 감독 훈련에 의해 획득되고, 상기 뉴럴 네트워크는 컨볼루션 계층, 비선형 계층, 풀링 계층 등 네트워크 계층을 포함할 수 있으며, 본 출원의 실시예는 구체적인 네트워크 구조에 대해 한정하지 않는다. 뉴럴 네트워크 구조를 결정한 후, 주석 정보를 가진 샘플 이미지를 기반으로 감독 방식을 사용하여 뉴럴 네트워크에 대해 역 기울기 전파를 수행함으로써 반복 훈련을 수행하며, 구체적인 훈련 방식은 본 출원의 실시예는 한정하지 않는다.
도 6은 본 출원의 실시예에서 제공되는 뉴럴 네트워크의 훈련 방법의 흐름 모식도이고, 도 6에 도시된 바와 같이, 상기 뉴럴 네트워크의 훈련 방법은 다음의 단계를 포함한다.
단계 501에 있어서, 샘플 이미지의 제1 특징 맵을 추출한다.
본 실시예는 훈련 이미지 세트로부터 뉴럴 네트워크에 대해 훈련을 수행하기 위한 샘플 이미지를 획득할 수 있으며, 여기서, 상기 훈련 이미지 세트는 복수 개의 샘플 이미지를 포함한다.
본 출원의 선택적인 실시예에서, 상기 훈련 이미지 세트 중의 샘플 이미지는 양의 샘플 이미지 및 음의 샘플 이미지를 포함한다. 상기 양의 샘플 이미지는 목표 대상에 대응하는 적어도 하나의 기설정된 동작을 포함하고, 상기 기설정된 동작은 예를 들어, 목표 대상의 물 마시기, 흡연, 통화, 안경 착용, 마스크 착용 등 동작을 포함하며; 상기 음의 샘플 이미지는 목표 대상의 입에 손을 대는 것, 귀를 긁는 것, 코를 만지는 것 중 적어도 하나의 기설정된 동작과 유사한 동작을 포함한다.
본 실시예는 기설정된 동작은 유사한 동작을 포함한 샘플 이미지를 음의 샘플 이미지로 사용하여, 뉴럴 네트워크에 대해 양의 샘플 이미지 및 음의 샘플 이미지의 구분 훈련을 수행함으로써, 훈련된 뉴럴 네트워크는 효율적으로 기설정된 동작과 유사한 동작을 구분하여, 동작 분류 결과의 정확성 및 견고성을 향상시킨다.
본 실시예에서, 뉴럴 네트워크 중의 컨볼루션 계층을 통해 샘플 이미지의 제1 특징 맵을 추출할 수 있다. 여기서, 샘플 이미지의 제1 특징 맵을 추출하는 상세한 과정은 상기 단계 302에서 설명한 바와 같으며, 여기서 더이상 설명하지 않는다.
단계 502에 있어서, 제1 특징 맵이 기설정된 동작을 포함 가능한 복수 개의 제3 후보 박스를 추출한다.
본 단계의 상세한 과정는 상기 실시예 중의 단계 302의 설명을 참조하며, 여기서 더이상 설명하지 않는다.
단계 503에 있어서, 상기 복수 개의 제3 후보 박스에 기반하여 목표 박스를 결정한다.
본 출원의 선택적인 실시예에서, 상기 복수 개의 제3 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계는, 상기 기설정된 동작에 따라, 제1 동작 감독 박스를 획득하는 단계 - 상기 제1 동작 감독 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체 또는 얼굴의 로컬 영역, 손 영역 및 동작 상호 작용 객체를 포함함 - ; 상기 복수 개의 제3 후보 박스의 제2 신뢰도를 획득하는 단계 - 상기 제2 신뢰도는 상기 제3 후보 박스가 상기 동작 목표 박스인 제1 확률인 것 및 상기 제3 후보 박스가 상기 동작 목표 박스가 아닌 제2 확률인 것을 포함함 - ; 상기 복수 개의 제3 후보 박스와 상기 제1 동작 감독 박스의 면적 중첩도를 결정하는 단계; 상기 면적 중첩도가 제2 임계값보다 크거나 같으면, 상기 면적 중첩도에 대응하는 상기 제3 후보 박스의 상기 제2 신뢰도는 상기 제1 확률로 취하는 단계; 상기 면적 중첩도가 상기 제2 임계값보다 작으면, 상기 면적 중첩도에 대응하는 상기 제3 후보 박스의 상기 제2 신뢰도를 상기 제2 확률로 취하는 단계; 상기 제2 신뢰도가 상기 제1 임계값보다 작은 상기 복수 개의 제3 후보 박스를 제거하여, 복수 개의 제4 후보 박스를 획득하는 단계; 및 상기 제4 후보 박스의 위치 및 크기를 조정하여, 상기 동작 목표 박스를 획득하는 단계를 포함한다.
본 실시예에서, 얼굴 관련된 미세 동작의 인식에 대해, 기설정된 동작의 특징에 대해 미리 정의를 수행할 수 있다. 예를 들어, 물 마시기 동작 특징은 손 영역, 얼굴 로컬 영역 및 물컵 영역(즉 동작 상호 작용 객체 대응 영역)의 특징을 포함하며; 흡연 동작 특징은 손 영역, 얼굴 로컬 영역 및 흡연 영역(즉 동작 상호 작용 객체 대응 영역)의 특징을 포함하며; 통화 동작 특징은 손 영역, 얼굴 로컬 영역 및 휴대폰 영역(즉 동작 상호 작용 객체 대응 영역)의 특징을 포함하고, 안경 착용 동작 특징은 손 영역, 얼굴 로컬 영역 및 안경 영역(즉 동작 상호 작용 객체 대응 영역)의 특징을 포함하며; 마스크 착용 동작 특징은, 손 영역, 얼굴 로컬 영역, 마스크 영역(즉 동작 상호 작용 객체 대응 영역)의 특징을 포함한다.
본 실시예에서, 상기 샘플 이미지의 주석 정보는 동작 감독 박스 및 상기 동작 감독 박스에 대응하는 동작 유형을 포함한다. 이해할 수 있는 것은, 뉴럴 네트워크를 통해 상기 샘플 이미지에 대해 처리를 수행하기 전에, 각 샘플 이미지에 대응하는 주석 정보를 더 획득해야 한다. 여기서, 상기 동작 감독 박스는 구체적으로 샘플 이미지 중의 기설정된 동작을 인식하기 위한 것이고, 구체적으로 도 7에서의 목표 대상 물 마시기 동작 감독 박스를 참조하거나 도 8에서의 목표 대상 통화 동작 감독 박스를 참조한다.
기설정된 동작과 유사한 동작은 뉴럴 네트워크의 추출 후보 박스의 과정에 큰 간섭을 가져온다. 예를 들어, 도 4에서 왼쪽에서 오른쪽으로, 통화, 물 마시기 및 흡연과 유사한 동작을 순차적으로 수행하고, 즉 목표 대상은 오른 손을 각각 얼굴 가까이에 두지만, 이때 목표 대상의 손에 휴대폰, 물컵 및 담배가 없고, 뉴럴 네트워크는 이런 동작을 통화, 물 마시기 및 흡연으로 인식하며, 대응하는 후보 박스를 각각 인식한다. 따라서, 본 출원의 실시예는 뉴럴 네트워크에 대해 양의 샘플 이미지 및 음의 샘플 이미지의 구분 훈련을 수행함으로써, 양의 샘플 이미지에 대응하는 제1 동작 감독 박스는 기설정된 동작을 포함하고, 음의 샘플 이미지에 대응하는 제1 동작 감독 박스는 기설정된 동작과 유사한 동작을 포함한다.
본 실시예에서, 뉴럴 네트워크를 통해 제3 후보 박스를 인식하는 동시에, 상기 제3 후보 박스에 대응하는 제2 신뢰도를 획득할 수 있고, 제2 신뢰도는, 상기 제3 후보 박스는 동작 목표 박스의 확률이고, 즉 제1 확률; 및 상기 제3 후보 박스는 동작 목표 박스의 확률이 아니며, 즉 제2 확률을 포함한다. 이와 같이, 뉴럴 네트워크를 통해 복수 개의 제3 후보 박스를 획득하는 동시에, 각 제3 후보 박스의 제2 신뢰도를 더 획득한다. 이해해야 할 것은, 제2 신뢰도는 뉴럴 네트워크가 제3 후보 박스 중의 특징에 따라 획득한 제3 후보 박스가 목표 동작 박스의 예측값을 이해된다. 또한, 제3 후보 박스 및 제2 신뢰도를 획득하는 동시에, 뉴럴 네트워크를 의한 처리는 제3 후보 박스가 좌표계 xoy의 좌표(x3, y3), 및 상기 제3 후보 박스의 사이즈를 획득할 수 있으며, 상기 제3 후보 박스의 사이즈는 길이 및 너비의 곱을 통해 나타낼 수 있다. 여기서, 상기 제3 후보 박스의 좌표(x3, y3)는 상기 제3 후보 박스의 하나의 꼭지점의 좌표일 수 있고, 예를 들어, 상기 제3 후보 박스의 왼쪽 상단 모서리, 오른쪽 상단 모서리, 왼쪽 하단 모서리 또는 오른쪽 하단 모서리의 꼭지점의 좌표일 수 있다. 상기 제3 후보 박스의 좌표(x3, y3)가 제3 후보 박스의 왼쪽 상단 모서리의 꼭지점 좌표이면, 제3 후보 박스의 오른쪽 상단 모서리의 수평 좌표 x4 및 왼쪽 하단 모서리의 수직 좌표 y4를 포함할 수 있으며, 제3 후보 박스는 bbox(x3, y3, x4, y4)를 표시할 수 있다. 유사하게, 상기 제1 동작 감독 박스는 bbox_gt(x1, y1, x2, y2)로 표시할 수 있다.
본 실시예에서, 각 제3 후보 박스 세트 bbox(x3, y3, x4, y4)는 제1 동작 감독 박스bbox_gt(x1, y1, x2, y2)의 면적 중첩도
Figure 112020102461527-pct00001
를 결정하고, 선택적으로, 면적 중첩도
Figure 112020102461527-pct00002
의 계산 공식은 다음과 같다.
Figure 112020102461527-pct00003
(1)
여기서, A와 B는 각각 제3 후보 박스의 면적 및 제1 동작 감독 박스의 면적을 나타내고,
Figure 112020102461527-pct00004
는 제3 후보 박스와 제1 동작 감독 박스 중첩 영역의 면적으로 나타내며,
Figure 112020102461527-pct00005
는 제3 후보 박스와 제1 동작 감독 박스에 포함된 모든 영역의 면적을 나타낸다.
면적 중첩도
Figure 112020102461527-pct00006
가 제2 임계값보다 크거나 같으면, 제3 후보 박스를 기설정된 동작을 포함한 후보 박스로 판단하고, 상기 제3 후보 박스의 제2 신뢰도를 상기 제1 확률로 취하며; 면적 중첩도
Figure 112020102461527-pct00007
가 상기 제2 임계값보다 작으면, 상기 제3 후보 박스는 기설정된 동작을 포함하지 않는 후보 박스로 판단하며, 상기 제3 후보 박스의 제2 신뢰도를 상기 제2 확률로 간주한다. 여기서, 상기 제2 임계값의 값은 0보다 크거나 같고 1보다 작거나 같으며; 상기 제2 임계값의 구체적인 값은 네트워크 훈련 효과에 따라 결정할 수 있다.
본 실시예에서, 상기 제1 임계값보다 작은 제2 신뢰도롤 갖는 복수 개의 제3 후보 박스를 제거하여, 복수 개의 제4 후보 박스를 획득하며, 상기 제4 후보 박스의 위치 및 크기를 조정하여, 상기 동작 목표 박스를 획득한다. 여기서, 동작 목표 박스의 획득 방식은 구체적으로 상기 실시예 중의 단계 304를 참조할 수 있다.
여기서, 상기 상기 제4 후보 박스의 위치 및 크기를 조정하여, 상기 동작 목표 박스를 획득하는 단계는, 제4 후보 박스를 풀링 처리하여, 상기 제4 후보 박스에 대응하는 제2 특징 영역을 획득하는 단계; 상기 제2 특징 영역에 기반하여 대응하는 제4 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 제5 후보 박스를 획득하는 단계; 및 상기 제5 후보 박스에 기반하여 동작 목표 박스를 획득하는 단계를 포함한다. 여기서, 상기 제2 특징 영역에에 기반하여 대응하는 제4 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 제5 후보 박스를 획득하는 단계는, 상기 제2 특징 영역에서 기설정된 동작에 대응하는 특징에 따라, 상기 기설정된 동작에 대응하는 제2 동작 특징 박스를 획득하는 단계; 상기 제2 동작 특징 박스의 기하학적 중심 좌표에 따라, 상기 제4 후보 박스의 제2 위치 오프셋을 획득하는 단계; 상기 제2 동작 특징 박스의 크기에 따라, 상기 제4 후보 박스의 제2 스케일 인자를 획득하는 단계; 및 상기 제2 위치 오프셋 및 상기 제2 스케일 인자에 따라 상기 제4 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 제5 후보 박스를 획득하는 단계를 포함한다.
본 실시예에서, 좌표계 xoy에서 상기 제4 후보 박스의 기하학적 중심 좌표
Figure 112020102461527-pct00008
및 좌표계 xoy에서 제2 동작 특징 박스의 기하학적 중심 좌표를 각각 획득하고, 제4 후보 박스의 기하학적 중심과 제2 동작 특징 박스의 기하학적 중심의 제2 위치 오프셋 즉
Figure 112020102461527-pct00009
을 획득하며, 여기서, n은 양의 정수이고, n의 개수와 제4 후보 박스의 개수는 일치하다. 즉
Figure 112020102461527-pct00010
은 복수 개의 제4 후보 박스의 제2 위치 오프셋이다.
본 실시예에서, 제4 후보 박스와 제2 동작 특징 박스의 사이즈를 각각 획득하고, 또한 제2 동작 특징 박스의 사이즈틀 제4 후보 박스의 사이즈로 나누므로, 제4 후보 박스의 제2 스케일 인자
Figure 112020102461527-pct00011
를 획득하며, 여기서, 제2 스케일 인자
Figure 112020102461527-pct00012
는 제4 후보 박스 길이의 스케일 인자
Figure 112020102461527-pct00013
및 너비의 스케일 인자
Figure 112020102461527-pct00014
를 포함한다.
제4 후보 박스의 기하학적 중심 좌표의 세트가
Figure 112020102461527-pct00015
로 표시된다고 가정한면, 제2 위치 오프셋
Figure 112020102461527-pct00016
에 따라 기하학적 중심의 위치 조정된 제4 후보 박스의 기하학적 중심 좌표의 세트는
Figure 112020102461527-pct00017
이며, 즉,
Figure 112020102461527-pct00018
(2)
이해해야 할 것은, 제4 후보 박스의 기하학적 중심 위치에 대해 조정할 때, 상기 제4 후보 박스의 길이 및 너비는 변하지 않는다.
기하학적 중심 위치 조정된 하나 또는 복수 개의 제4 후보 박스를 획득한 후, 제4 후보 박스의 기하학적 중심은 고정되고 변하지 않으며, 상기 제2 스케일 인자
Figure 112020102461527-pct00019
에 기반하여 상기 제4 후보 박스의 길이를
Figure 112020102461527-pct00020
배로 조정하고, 너비를
Figure 112020102461527-pct00021
배로 조정하여, 제5 후보 박스를 획득한다.
본 실시예에서, 상기 제5 후보 박스에 기반하여 동작 목표 박스를 획득하는 단계는, 사이즈 및 거리가 유사한 복수 개의 제5 후보 박스를 결합하고, 결합된 제5 후보 박스를 동작 목표 박스로 취하는 단계를 포함한다. 이해해야 할 것은, 동일한 기설정된 동작에 대응하는 제5 후보 박스의 크기 및 거리는 매우 가까우므로, 결합된 후 각 동작 목표 박스는 하나의 기설정된 동작에만 대응한다.
본 출원의 선택적인 실시예에서, 뉴럴 네트워크의 처리를 통해 동작 목표 박스를 획득하는 동시에 상기 동작 목표 박스의 제3 신뢰도를 획득하고, 제3 신뢰도는 상기 동작 목표 박스 중의 동작이 기설정된 동작 유형의 확률이며, 즉 제3 확률이며, 예를 들어, 상기 기설정된 동작은 물 마시기, 흡연, 통화, 안경 착용, 마스크 착용 다섯 가지 유형을 포함할 수 있고, 각 동작 목표 박스는 제3 확률은 모두 다섯 개의 확률값은 각각 동작 목표 박스 중의 동작이 물 마시기 동작 확률
Figure 112020102461527-pct00022
, 흡연 동작 확률
Figure 112020102461527-pct00023
, 통화 동작 확률
Figure 112020102461527-pct00024
, 안경 착용 동작 확률
Figure 112020102461527-pct00025
및 마스크 착용 동작 확률
Figure 112020102461527-pct00026
를 포함한다.
단계 504에 있어서, 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득한다.
본 실시예에서, 동작 목표 박스에 포함된 기설정된 동작은 물 마시기, 흡연, 통화, 안경 착용, 마스크 착용 등을 포함하는 다섯 가지 유형을 예로 들면, 동작 목표 박스의 제3 신뢰도는 각각
Figure 112020102461527-pct00027
,
Figure 112020102461527-pct00028
,
Figure 112020102461527-pct00029
,
Figure 112020102461527-pct00030
, 및
Figure 112020102461527-pct00031
로 가정한다. 동작 인식 결과는 마스크 착용 동작일 수 있다. 따라서, 본 실시예에서, 상이한 기설정된 동작에 대응하는 동작 목표 박스의 제3 신뢰도(즉 제3 확률)에서, 최대 제3 신뢰도(즉 제3 확률)를 갖는 기설정된 동작의 분류를 동작 인식 결과로 선택할 수 있다. 여기서, 최대 제3 신뢰도(즉 제3 확률)는 제4 확률로 기록될 수 있다.
단계 505에 있어서, 상기 샘플 이미지의 후보 박스의 검출 결과 및 검출 박스 주석 정보의 제1 손실, 및 동작 인식 결과 및 동작 유형 주석 정보의 제2 손실을 결정한다.
단계 506에 있어서, 상기 제1 손실 및 상기 제2 손실에 따라 상기 뉴럴 네트워크의 네트워크 파라미터를 조정한다.
본 실시예에서, 뉴럴 네트워크는 뉴럴 네트워크의 특징 추출 분기, 뉴럴 네트워크의 후보 박스 추출 분기, 뉴럴 네트워크의 검출 박스 정제 분기 및 뉴럴 네트워크의 동작 분류 분기를 포함할 수 있고, 상기 뉴럴 네트워크의 각 분기 기능에 대한 자세한 내용은 전술한 실시예의 단계 301 내지 단계 305의 상세한 설명을 참조한다.
본 실시예에서, 뉴럴 네트워크의 네트워크 파라미터는 후보 박스 좌표 회귀 손실 함수
Figure 112020102461527-pct00032
및 유형 손실 함수
Figure 112020102461527-pct00033
를 계산함으로써 업데이트된다.
선택적으로, 후보 박스 추출된 손실 함수(Region Proposal Loss)의 표현식은 다음과 같다.
Figure 112020102461527-pct00034
(3)
여기서,
Figure 112020102461527-pct00035
Figure 112020102461527-pct00036
은 뉴럴 네드워크의 후보 박스 추출 분기의 가중치 파라미이고,
Figure 112020102461527-pct00037
는 감독 변수이다.
유형 손실 함수
Figure 112020102461527-pct00038
및 후보 박스 좌표 회귀 손실 함수
Figure 112020102461527-pct00039
의 구체적인 표현은 다음과 같다.
Figure 112020102461527-pct00040
(4)
Figure 112020102461527-pct00041
(5)
여기서,
Figure 112020102461527-pct00042
이다.
뉴럴 네트워크의 검출 박스 정제 분기는 손실 함수를 통해 업데이트 네트워크의 가중치 파라미터를 업데이트하며, 손실 함수(Bbox Refine Loss)는 구체적인 표현식은 다음과 같다.
Figure 112020102461527-pct00043
(6)
여기서,
Figure 112020102461527-pct00044
은 제6 후보 박스의 개수이고,
Figure 112020102461527-pct00045
는 뉴럴 네트워크의 검출 박스 정제 분기의 가중치 파라미터이며,
Figure 112020102461527-pct00046
는 감독 변수이고, 손실 함수
Figure 112020102461527-pct00047
및 손실 함수
Figure 112020102461527-pct00048
의 표현 형태는 공식 (4) 및 공식 (5)를 참조하며, 특히, 공식 (6)에서
Figure 112020102461527-pct00049
은 구체적으로 정제된 동작 목표 박스의 기하학적 중심 좌표이며,
Figure 112020102461527-pct00050
은 감독 동작 박스의 기하학적 중심 좌표이다.
본 실시예에서, 손실 함수는 뉴럴 네트워크의 최적화된 목표 함수이고, 뉴럴 네트워크 훈련 또는 최적화된 과정은 손실 함수를 최소화하는 과정이며, 즉 손실 함수 값이 0에 가까울수록, 대응 예측 결과 및 실제 결과의 값에 가까워진다.
본 실시예에서, 제4 후보 박스의 제2 신뢰도를 사용하여 공식 (3) 및 공식 (4) 중의 감독 변수
Figure 112020102461527-pct00051
로 대체하고, 공식 (3)으로 대체하고, 뉴럴 네트워크의 후보 박스 추출 분기의 가중치 파라미터를 통해
Figure 112020102461527-pct00052
Figure 112020102461527-pct00053
로 조정하고, Region Proposal Loss의 값(즉 제1 손실)을 변경하며, 0에 가장 가까운 Region Proposal Loss의 값을 갖는 가중치 파라미터 조합은
Figure 112020102461527-pct00054
Figure 112020102461527-pct00055
를 선택한다.
본 실시예에서, 공식 (6)의 감독 변수
Figure 112020102461527-pct00056
은 동작 목표 박스의 제4 확률(즉, 복수개의 제3 신뢰도(즉 제3 확률) 중의 최대값)으로 대체하고, 뉴럴 네트워크의 검출 박스 정제 분기의 가중치 파라미터
Figure 112020102461527-pct00057
를 조정함으로써, Bbox Refine Loss의 값(즉 제2 손실)을 변경하고, 0에 가까운 Bbox Refine Loss의 값을 갖는 가중치 파라미터
Figure 112020102461527-pct00058
를 선택하여, 경사 역전파 방식으로 뉴럴 네트워크의 검출 박스 정제 분기에 대한 가중치 파라미터의 업데이트를 완료한다.
업데이트 완료된 가중치 파라미터의 후보 박스 추출 분기, 업데이트 완료된 가중치 파라미터의 검출 박스 정제 분기, 특징 추출 분기 및 동작 분류 분기에 대해 다시 훈련을 수행하며, 즉 뉴럴 네트워크에 샘플 이미지를 입력하고, 뉴럴 네트워크의 처리에 의해, 인식 결과는 최종적으로 뉴럴 네트워크의 동작 분류 분기에서 출력된다. 동작 분류 분기의 출력 결과와 실제 결과 사이는 오차가 존재하므로, 입력 계층으로 전파할 때까지, 동작 분류 분기의 출력 값과 실제 값 사이의 오차는 출력 계층으로부터 컨볼루션 계층에 역전파한다. 역전파 과정에서, 뉴럴 네트워크 중의 가중치 파라미터는 오류에 따라 조정되며, 뉴럴 네트워크의 네트워크 파라미터를 다시 업데이트하기 위해, 수렴될 때까지 프로세서가 계속 반복된다.
본 실시예에서 동작 특징에 따라 차량 탑승자의 얼굴 미세 동작은 손 및 얼굴 관련된 운전자 위험 운전과 같은 동작이다. 실제 응용에서는, 운전자가 수행하는 위험한 운전 동작과 유사한 일부 동작은 뉴럴 네트워크에 대해 쉽게 간섭을 초래하고, 후속 동작의 분류 인식에 대해 영향을 미치며, 이는 동작 인식 결과의 정밀도를 감소시킬 뿐만 아니라, 사용자 체험을 현저히 감소시킨다. 본 실시예는 양의 샘플 이미지 및 음의 샘플 이미지를 뉴럴 네트워크 훈련을 위한 샘플 이미지로 사용하여, 손실 함수를 사용하여 감독을 수행하며, 경사 역전파의 방식을 사용하여 뉴럴 네트워크의 네트워크 파라미터(특히 뉴럴 네트워크의 특징 추출 분기 및 뉴럴 네트워크의 후보 박스 추출 분기의 가중치 파리미터)를 업데이트하고 훈련을 완료함으로써, 훈련된 뉴럴 네트워크의 특징 추출 분기가 위험 운전 동작의 특징을 정확하게 추출할 수 있도록, 뉴럴 네트워크의 후보 박스 추출 분기를 통해 기설정된 동작(예를 들어, 위험 운전 행동)을 포함한 유사한 동작의 후보 박스를 자동적으로 제거하고, 위험 운전 동작의 오차를 크게 줄인다.
또한, 뉴럴 네트워크의 후보 박스 추출 분기에서 출력되는 동작 후보 박스의 사이즈가 크므로, 이에 대해 직접적으로 후속 처리를 수행하면, 계산량이 많으며, 본 실시예는 후보 박스에 대해 풀링 처리를 수행하고, 이를 기설정된 사이즈로 조정함으로써, 후속 처리의 계산량을 크게 감소시켜, 처리 속도를 높일 수 있으며; 뉴럴 네트워크의 검출 박스 정제 분기를 통해 후보 박스의 정제를 수행함으로써, 정제된 동작 목표 박스는 기설정된 동작(예를 들어, 위험 운전 동작)의 특징만 포함하여, 인식 결과의 정확도를 향상시킨다.
도 9를 참조하면, 도 9는 본 출원의 실시예에 제공되는 동작 인식 장치의 구조 모식도이고, 상기 동작 인식 장치(1000)는 제1 추출 유닛(11), 제2 추출 유닛(12), 결정 유닛(13) 및 분류 유닛(14)을 포함한다. 여기서,
상기 제1 추출 유닛(11)은, 얼굴을 포함하는 이미지의 특징을 추출하기 위한 것이며;
상기 제2 추출 유닛(12)은, 상기 특징에 기반하여 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하기 위한 것이며;
상기 결정 유닛(13)은, 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하기 위한 것이며 - 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함함 - ;
상기 분류 유닛(14)은, 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하기 위한 것이다.
본 출원의 선택적인 실시예에서, 상기 얼굴 로컬 영역은 입 영역, 귀 영역 및 눈 영역 중 적어도 하나를 포함한다.
본 출원의 선택적인 실시예에서, 상기 동작 상호 작용 객체는 용기, 담배, 휴대폰, 음식, 도구, 음료수 병, 안경 및 마스크 중 적어도 하나를 포함한다.
본 출원의 선택적인 실시예에서, 상기 동작 목표 박스는 손 영역을 더 포함한다.
본 출원의 선택적인 실시예에서, 상기 기설정된 동작은 통화, 흡연, 물/음료 마시기, 음식 먹기, 도구 사용, 안경 착용, 메이크업 중 적어도 하나를 포함한다.
본 출원의 선택적인 실시예에서, 동작 인식 장치(1000)은, 차량 탑승자의 이미지를 캡처하기 위한 차량 탑재 카메라 - 이미지는 사람의 얼굴을 포함함 - 를 더 포함한다.
본 출원의 선택적인 실시예에서, 상기 차량 탑승자는 상기 차량의 운전 영역의 운전자, 상기 차량의 조수석 영역의 사람, 상기 차량의 뒷좌석에 있는 사람 중 적어도 하나를 포함한다.
본 출원의 선택적인 실시예에서, 상기 차량 탑재 카메라는 RGB 카메라, 적외선 카메라 또는 근적외선 카메라이다.
본 출원의 실시예는 처리될 이미지에 대해 특징 추출을 수행하고, 추출된 특징에 따라 처리될 이미지에서 동작 인식을 구현한다. 전술한 동작은 손 영역의 동작 및/또는 얼굴 로컬 영역의 동작, 동작 상호 작용 객체에 대한 동작일 수 있으며, 따라서, 차량 탑재 카메라를 통해 차량 탑승자에 대해 이미지 획득을 수행하여, 얼굴을 포함하는 처리될 이미지를 획득한다. 그다음 처리될 이미지에 대해 컨볼루션 연산을 수행하여, 동작 특징을 추출한다.
하나의 선택적인 실시형태에 있어서, 먼저 상기 기설정된 동작의 특징에 대해 정의한 후, 뉴럴 네트워크을 사용하고 정의된 특징 및 추출된 이미지에서의 특징에 따라, 기설정된 동작이 이미지에 존재하는지 여부에 대한 결정을 구현하며, 이미지에 기설정된 동작이 존재한다고 판단하는 경우, 이지에는 기설정된 동작을 포함한 복수 개의 후보 박스를 결정한다.
본 실시예에서, 상기 추출된 특징은 손 영역, 얼굴 로컬 영역, 동작 상호 작용 객체 대응 영역 중 적어도 하나의 영역에 대응하면, 뉴럴 네트워크의 특징 추출 처리를 통해 손 영역 및 얼굴 로컬 영역의 특징 영역을 포함한 특징을 획득하며, 상기 특징 영역에 기반하여 후보 영역을 결정하고, 후보 박스을 통해 상기 후보 영역을 인식하며; 여기서, 상기 후보 박스는 예를 들어 직사각형 박스를 통해 표시될 수 있다. 유사하게, 다른 후보 박스를 통해 손 영역, 얼굴 로컬 영역 및 동작 상호 작용 객체 대응 영역을 포함하는 특징 영역을 인식한다. 이와 같이, 기설정된 동작에 대응하는 특징에 대해 특징을 추출하여, 복수 개의 후보 영역을 획득하고; 복수 개의 후보 영역에 따라, 복수 개의 후보 박스를 결정한다.
본 실시예에서, 후보 박스는 기설정된 동작에 대응하는 특징 이외의 특징을 포함할 수 있거나, 기설정된 동작에 대응하는 모든 특징(임의의 기설정된 동작의 모든 특징을 지칭함)을 포함하지 않기 ‹š문에, 최종 동작 인식 결과는 영향을 받을 수 있다. 따라서, 최종 인식 결과의 정밀도를 보장하기 위해, 후보 박스의 위치에 대해 조정을 수행하고, 즉 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정한다. 이를 기반으로, 각 후보 박스의 위치 및 크기에 대해 조정을 수행함으로써, 조정된 후보 박스를 동작 목표 박스로 결정한다. 이해할 수 있는 것은, 조정된 복수 개의 후보 박스를 하나의 후보 박스로 중첩할 수 있고, 중첩된 후보 박스를 동작 목표 박스로 결정한다.
본 출원의 선택적인 실시예에서, 상기 제1 추출 유닛(11)은, 얼굴을 포함하는 이미지의 특징을 추출하여, 특징 맵을 획득하기 위한 뉴럴 네트워크의 특징 추출 분기(111)를 포함한다.
본 실시예에서, 뉴럴 네트워크의 특징 추출 분기를 통해 처리될 이미지에 대해 컨볼루션 연산을 수행하는 것은, 컨볼루션 커널을 사용하여 처리될 이미지에서 “슬라이딩”하는 것이다. 예를 들어, 컨볼루션 커널이 이미지의 어느 픽셀 포인트에 대응할 때, 상기 픽셀 포인트의 그레이 스케일 값과 컨볼루션 커널상의 각각의 값을 곱하여, 모든 곱의 합을 컨볼루션 커널에 대응하는 상기 픽셀 포인트의 그레이 스케일 값으로 사용하고, 컨볼루션 커널을 다음의 픽셀 포인트로 “슬라이딩”하며, 이와 같이 유추하여, 상기 처리될 이미지에서의 모든 픽셀 포인트에 대해 컨볼루션 처리를 최종적으로 완료하여, 특징 맵을 획득한다.
여기서, 뉴럴 네트워크의 특징 추출 분기(111)는 복수 개의 컨볼루션 계층을 포함할 수 있고, 이전 컨볼루션 계층은 특징 추출을 통해 획득한 특징 맵을 다음 컨볼루션 계층의 입력 데이터로 사용할 수 있고, 복수 개의 컨볼루션 계층을 통해 이미지에서 더욱 풍부한 정보를 추출하므로, 특징 추출된 정확도를 향상시킨다.
본 출원의 선택적인 실시예에서, 상기 제2 추출 유닛(12)은 상기 특징 맵에서 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 추출하기 위한 상기 뉴럴 네트워크의 후보 박스 추출 분기(121)를 포함한다.
예를 들어, 특징 맵에서 손, 담배, 물겁, 휴대폰, 안경, 마스크, 얼궁 로컬 영역에 대응하는 특징에서 적어도 하나를 포함할 수 있으며, 상기 적어도 하나의 특징에 기반하여 복수 개의 후보 박스를 결정한다. 설명해야 할 것은, 뉴럴 네트워크의 특징 추출 분기를 통해 처리될 이미지의 특징을 추출할 수 있지만, 추출된 특징은 기설정된 동작에 대응하는 특징이외의 다른 특징을 포함할 수 있으며, 따라서, 여기서 뉴럴 네트워크의 후보 박스 추출 분기에 의해 결정된 복수 개의 후보 박스에서, 적어도 일부의 후보 박스에는 기설정된 동작에 대응하는 특징이외의 다른 특징을 포함하거나, 또는 기설정된 동작에 대응하는 모든 특징을 포함하지 않는 것으로 존재할 수 있으므로, 상기 복수 개의 후보 박스는 기설정된 동작을 포함할 수 있다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크의 후보 박스 추출 분기(121)는 또한, 상기 기설정된 동작의 특징에 따라 상기 특징 맵에서의 특징에 대해 분할을 수행하여, 복수 개의 후보 영역을 획득하고; 상기 복수 개의 후보 영역에 따라, 상기 복수 개의 후보 박스에서의 각 후보 박스의 제1 신뢰도를 획득하기 위한 것이고, 상기 제1 신뢰도는 상기 후보 박스가 상기 동작 목표 박스일 확률이다.
여기서, 상기 뉴럴 네트워크의 후보 박스 추출 분기(121)는, 상기 기설정된 동작의 특징에 따라 상기 특징 맵에서의 특징에 대해 분할을 수행하여, 복수 개의 후보 영역을 획득하기 위한 분할 서브 유닛; 및
상기 복수 개의 후보 영역에 따라, 상기 복수 개의 후보 박스에서의 각 후보 박스의 제1 신뢰도를 획득하기 위한 제1 획득 서브 유닛 - 상기 제1 신뢰도는 상기 후보 박스가 상기 동작 목표 박스일 확률임 - 을 포함한다.
본 실시예에서, 뉴럴 네트워크의 후보 박스 추출 분기(121)는 또한 각 후보 박스에 제1 신뢰도를 결정할 수 있으며, 상기 제1 신뢰도는 확률의 형태로 후보 박스가 목표 동작 박스일 가능성을 표시하기 위한 것이다. 뉴럴 네트워크의 후보 박스 추출 분기는 특징 맵의 처리를 통해, 복수 개의 후보 박스를 획득하는 동시에, 복수 개의 후보 박스에서의 각 후보 박스의 제1 신뢰도를 획득한다. 이해해야 할 것은, 상기 제1 신뢰도는 뉴럴 네트워크의 후보 박스 추출 분기가 후보 박스 중의 특징에 의해 획득한 후보 박스를 목표 동작 박스로 사용하는 예측값이다.
본 출원의 선택적인 실시예에서, 상기 결정 유닛(13)은 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하기 위한 상기 뉴럴 네트워크의 검출 박스 정제 분기(131)를 포함한다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크의 검출 박스 정제 분기(131)는 또한, 상기 제1 임계값보다 작은 상기 제1 신뢰도를 갖는 후보 박스를 제거하여, 적어도 하나의 제1 후보 박스를 획득하며; 또는 상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 적어도 하나의 제2 후보 박스를 획득하며; 및 상기 적어도 하나의 제2 후보 박스에 따라, 동작 목표 박스를 결정하기 위한 것이다.
여기서, 상기 뉴럴 네트워크의 검출 박스 정제 분기는, 제1 신뢰도보다 작은 제1 임계값의 후보 박스를 제거하여, 적어도 하나의 제1 후보 박스를 획득하기 위한 제거 서브 유닛;
상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 적어도 하나의 제2 후보 박스를 획득하기 위한 제2 획득 서브 유닛; 및
상기 적어도 하나의 제2 후보 박스에 따라, 동작 목표 박스를 결정하기 위한 결정 서브 유닛을 포함한다.
본 실시예에서, 후보 박스를 획득하는 과정에서, 기설정된 동작과 유사한 일부 동작은 뉴럴 네트워크의 후보 박스 추출 분기에 큰 간섭을 가져올 것이다. 도 4의 왼쪽에서 오른쪽으로서의 서브 이미지에서, 목표 대상은 통화, 물 마시기 및 흡연 등 동작을 순차적으로 수행하고, 이런 동작은 비슷하며, 모두 오른손을 얼굴 가까이에 두지만, 목표 대상의 손에는 휴대폰, 물컵 및 담배를 들고 있지 않지만, 뉴럴 네트워크는 목표 대상의 이러한 동작을 통화, 물 마시기 및 흡연 동작으로 잘못 인식한다.
본 출원의 실시예는 뉴럴 네트워크의 검출 박스 정제 분기(131)를 통해 제1 신뢰도가 제1 임계값보다 작은 후보 박스를 제거하여, 적어도 하나의 제1 후보 박스를 획득하고; 여기서, 후보 박스의 제1 신뢰도가 제1 임계값보다 작으면, 상기 후보 박스는 상기 동작과 유사한 후보 박스임을 나타내고, 상기 후보 박스를 제거해야 하므로, 기설정된 동작 및 유사한 동작을 효율적으로 구분할 수 있음으로써, 오검출률을 줄이고, 동작 인식 결과의 정확도를 크게 향상시킨다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크의 검출 박스 정제 분기(131)(또는 상기 제2 획득 서브 유닛)는 또한, 상기 적어도 하나의 제1 후보 박스에 대해 각각 풀링 처리하여, 상기 적어도 하나의 제1 후보 박스에 대응하는 적어도 하나의 제1 특징 영역을 획득하며; 및 각 제1 특징 영역에 기반하여 대응하는 제1 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하기 위한 것이다.
본 실시예에서, 제1 후보 박스가 위치하는 영역에서의 특징의 개수는 많을 수 있으므로, 제1 후보 박스가 위치한 영역에서의 특징을 직접적으로 사용하면 많은 양의 계산량이 발생한다. 따라서, 제1 후보 박스가 위치한 영역에서의 특징에 대해 후속 처리를 수행하기 전에, 먼저 제1 후보 박스에 대해 풀링 처리를 수행하며, 즉 제1 후보 박스가 위치한 영역에서의 특징에 대해 풀링 처리를 수행하여, 제1 후보 박스가 위치한 영역에서의 특징의 차원을 낮춤으로써, 후속 처리 과정에서 계산량에 대한 요건을 만족하여, 후속 처리의 계산량을 크게 감소시킨다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크의 검출 박스 정제 분기(131)(또는 상기 제2 획득 서브 유닛)는 또한, 상기 제1 특징 영역에서 상기 기설정된 동작에 대응하는 특징에 기반하여, 상기 기설정된 동작의 특징에 대응하는 제1 동작 특징 박스를 획득하며; 상기 제1 동작 특징 박스의 기하학적 중심 좌표에 따라, 상기 적어도 하나의 제1 후보 박스의 제1 위치 오프셋을 획득하며; 상기 제1 동작 특징 박스의 크기에 따라, 상기 적어도 하나의 제1 후보 박스의 제1 스케일 인자를 획득하며; 적어도 하나의 제1 위치 오프셋 및 적어도 하나의 제1 스케일 인자에 따라 상기 적어도 하나의 제1 후보 박스의 위치 및 크기에 대해 각각 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하기 위한 것이다.
본 출원의 선택적인 실시예에서, 상기 분류 유닛(14)은, 상기 특징 맵의 상기 동작 목표 박스에 대응하는 영역 이미지를 획득하고, 상기 영역 이미지에 기반하여 기설정된 동작의 분류를 수행하여, 동작 인식 결과를 획득하기 위한 상기 뉴럴 네트워크의 동작 분류 분기(141)를 포함한다.
본 출원의 선택적인 실시예에서, 뉴럴 네트워크의 동작 분류 분기(141)를 통해 제1 동작 인식 결과를 획득하고, 다른 측면은, 뉴럴 네트워크의 동작 분류 분기(141)를 통해 상기 제1 동작 인식 결과의 제2 신뢰도를 획득할 수 있고, 상기 제2 신뢰도는 상기 동작 인식 결과의 정확도를 나타낸다.
본 출원의 선택적인 실시예에서, 상기 뉴럴 네트워크는 훈련 이미지 세트에 기반하여 사전 감독된 훈련에 의해 획득되고, 상기 훈련 이미지 세트는 복수 개의 샘플 이미지를 포함하며, 여기서, 상기 샘플 이미지의 주석 정보는 동작 감독 박스 및 상기 동작 감독 박스에 대응하는 동작 유형을 포함한다.
본 출원의 선택적인 실시예에서, 상기 훈련 이미지 세트는 양의 샘플 이미지 및 음의 샘플 이미지를 포함하고, 상기 음의 샘플 이미지의 동작은 상기 양의 샘플 이미지의 동작과 유사하며, 상기 양의 샘플의 동작 감독 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체 또는 얼굴의 로컬 영역, 손 영역 및 동작 상호 작용 객체를 포함한다.
본 출원의 선택적인 실시예에서, 상기 양의 샘플 이미지의 동작은 통화를 포함하고, 상기 음의 샘플 이미지는 귀를 긁는 것을 포함하는 것 및 상기 양의 샘플 이미지는 흡연, 음식 섭취 또는 물 마시기를 포함하고, 상기 음의 샘플 이미지는 입을 벌리거나 또는 입술에 손을 대는 동작을 포함하는 것 중 적어도 하나이다.
본 출원의 실시예는 뉴럴 네트워크의 특징 추출 분기(111)를 통해 처리될 이미지에 대해 특징 추출을 수행하고, 뉴럴 네트워크의 후보 박스 추출 분기(121)를 통해 추출된 특징에 따라 기설정된 동작을 포함 가능한 후보 박스를 획득하고, 뉴럴 네트워크의 검출 박스 정제 분기(131)를 통해 동작 목표 박스를 결정하며, 마지막으로 뉴럴 네트워크의 동작 분류 분기(141)를 통해 목표 동작 박스 중의 특징에 대해 기설정된 동작의 분류를 수행하여, 처리될 이미지의 동작 인식 결과를 획득하며; 모든 인식 과정은 처리될 이미지 중의 특징(예를 들어, 손 영역, 얼굴 로컬 영역, 동작 상호 작용 객체 대응 영역의 특징 추출)을 통해 추출하며, 이에 대해 처리를 수행함으로써, 미세 동작의 정밀한 인식을 자율적이고 신속하게 구현할 수 있다.
본 출원의 실시예의 상기 동작 인식 장치는 상기 뉴럴 네트워크의 훈련 컴포넌트를 더 포함한다. 도 10을 참조하면, 도 10은 본 출원의 실시예에서 제공되는 뉴럴 네트워크의 훈련 컴포넌트의 구조 모식도이고, 상기 훈련 컴포넌트(2000)는 제1 추출 유닛(21), 제2 추출 유닛(22), 제1 결정 유닛(23), 획득 유닛(24), 제2 결정 유닛(25) 및 조정 유닛(26)을 포함한다. 여기서,
상기 제1 추출 유닛(21)은, 샘플 이미지를 포함하는 제1 특징 맵을 추출하기 위한 것이며;
상기 제2 추출 유닛(22)은, 상기 제1 특징 맵이 기설정된 동작을 포함 가능한 복수 개의 제3 후보 박스를 추출하기 위한 것이며;
상기 제1 결정 유닛(23)은, 상기 복수 개의 제3 후보 박스에 기반하여 목표 박스를 결정하기 위한 것이며;
상기 획득 유닛(24)은, 상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 제1 동작 인식 결과를 획득하기 위한 것이며;
상기 제2 결정 유닛(25)은, 상기 샘플 이미지의 후보 박스의 검출 결과 및 검출 박스 주석 정보의 제1 손실, 및 동작 인식 결과 및 동작 유형 주석 정보의 제2 손실을 결정하기 위한 것이며;
상기 조정 유닛(26)은, 상기 제1 손실 및 상기 제2 손실에 따라 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하기 위한 것이다.
본 출원의 선택적인 실시예에서, 상기 제1 결정 유닛(23)은 상기 기설정된 동작에 따라, 제1 동작 감독 박스를 획득하기 위한 제1 획득 서브 유닛(231) - 상기 제1 동작 감독 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체 또는 얼굴의 로컬 영역, 손 영역 및 동작 상호 작용 객체를 포함함 - 을 포함하며;
상기 제2 획득 서브 유닛(232)은, 상기 복수 개의 제3 후보 박스의 제2 신뢰도를 획득하기 위한 것이며 - 상기 제2 신뢰도는 상기 제4 후보 박스가 상기 동작 목표 박스인 제1 확률인 것 및 상기 제3 후보 박스가 상기 동작 목표 박스가 아닌 제2 확률인 것을 포함함 - ;
상기 결정 서브 유닛(233)은, 상기 복수 개의 제3 후보 박스와 상기 제1 동작 감독 박스의 면적 중첩도를 결정하기 위한 것이며;
상기 선택 서브 유닛(234)은, 상기 면적 중첩도가 제2 임계값보다 크거나 같으면, 상기 면적 중첩도에 대응하는 상기 제3 후보 박스의 상기 제2 신뢰도를 상기 제1 확률로 취하고; 상기 면적 중첩도가 상기 제2 임계값보다 작으면, 상기 면적 중첩도에 대응하는 상기 제3 후보 박스의 상기 제2 신뢰도를 상기 제2 확률로 취하기 위한 것이며;
상기 제거 서브 유닛(235)은, 상기 제2 신뢰도가 상기 제1 임계값보다 작은 상기 복수 개의 제3 후보 박스를 제거하여, 복수 개의 제4 후보 박스를 획득하기 위한 것이며;
상기 조정 서브 유닛(236)은, 상기 제4 후보 박스의 위치 및 크기를 조정하여, 상기 동작 목표 박스를 획득하기 위한 것이다.
본 실시예에서 동작 특징에 따라 차량 탑승자의 얼굴 미세 동작은 손 및 얼굴 관련된 운전자 위험 운전과 같은 동작이다. 실제 응용에서는, 운전자가 수행하는 위험한 운전 동작과 유사한 일부 동작은 뉴럴 네트워크에 대해 쉽게 간섭을 초래하고, 후속 동작의 분류 인식에 대해 영향을 미치며, 이는 동작 인식 결과의 정밀도를 감소시킬 뿐만 아니라, 사용자 체험을 현저히 감소시킨다. 본 실시예는 양의 샘플 이미지 및 음의 샘플 이미지를 뉴럴 네트워크 훈련을 위한 샘플 이미지로 사용하여, 손실 함수를 사용하여 감독을 수행하며, 경사 역전파의 방식을 사용하여 뉴럴 네트워크의 네트워크 파라미터(특히 뉴럴 네트워크의 특징 추출 분기 및 뉴럴 네트워크의 후보 박스 추출 분기의 가중치 파리미터)를 업데이트하고 훈련을 완료함으로써, 훈련된 뉴럴 네트워크의 특징 추출 분기가 위험 운전 동작의 특징을 정확하게 추출할 수 있도록, 뉴럴 네트워크의 후보 박스 추출 분기를 통해 기설정된 동작(예를 들어, 위험 운전 햄동)을 포함한 유사한 동작의 후보 박스를 자동적으로 제거하고, 위험 운전 동작의 오차를 크게 줄인다.
또한, 뉴럴 네트워크의 후보 박스 추출 분기에서 출력되는 동작 후보 박스 사이즈가 크므로, 이에 대해 직접적으로 후속 처리를 수행하면, 계산량이 많으며, 본 실시예는 후보 박스에 대해 풀링 처리를 수행하고, 이를 기설정된 사이즈로 조정함으로써, 후속 처리의 계산량을 크게 감소시켜, 처리 속도를 높일 수 있으며; 뉴럴 네트워크의 검출 박스 정제 분기를 통해 후보 박스의 정제를 수행함으로써, 정제된 동작 목표 박스는 기설정된 동작(예를 들어, 위험 운전 동작)의 특징만 포함하여, 인식 결과의 정확도를 향상시킨다.
도 11을 참조하면, 도 11은 본 출원의 실시예에서 제공되는 운전 동작 분석 장치의 구조 모식도이고, 상기 분석 장치(3000)는 차량 탑재 카메라(31), 제1 획득 유닛(32) 및 생성 유닛(33)을 포함한다. 여기서,
상기 차량 탑재 카메라(31)는, 운전자 얼굴 이미지를 포함하는 비디오 스트림을 획득하기 위한 것이며;
상기 제1 획득 유닛(32)은, 본 출원의 상기 실시예에 전술한 동작 인식 장치를 통해, 상기 비디오 스트림 중 적어도 하나의 프레임 이미지의 동작 인식 결과를 획득하기 위한 것이며;
상기 생성 유닛(33)은, 기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 주의력 산만 또는 위험 운전 프롬프트 정보를 생성하기 위한 것이다.
본 출원의 선택적인 실시예에서, 상기 기설정된 조건은, 기설정된 특정 동작의 발생; 기설정된 시간내에 기설정된 동작의 발생 횟수; 상기 비디오 스트림에서 기설정된 특정 동작의 발생 유지 기간 중 적어도 하나를 포함한다.
본 출원의 선택적인 실시예에서, 상기 분석 장치(3000)는, 차량에 탑재된 듀얼 카메라가 설치된 차량의 속도를 획득하기 위한 제2 획득 유닛(34)을 더 포함하며; 상기 생성 유닛(33)은 또한, 상기 차량의 속도가 기설정된 임계값보다 큰 경우 및 상기 동작 인식 결과가 상기 기설정된 조건을 만족하는 것에 응답하여, 산만 또는 위험 운전 프름프트 정보를 생성하기 위한 것이다.
본 실시예에서, 차량 탑재 카메라를 통해 운전자에 대해 비디오 캡처를 수행하고, 캡처된 비디오의 각 프레임 화면을 처리될 이미지로 사용한다. 카메라에 의해 캡처된 각 프레임 화면을 통해 인식을 수행하여, 대응하는 인식 결과를 획득하고, 복수 개의 연속 프레임 화면의 결과를 다시 결합하여 운전자의 동작에 대해 인식을 수행한다. 운전자의 물 마시기, 통화, 안경 착용 중 임의의 하나의 동작을 검출하면, 디스플레이 단말을 통해 운전자에게 경보하고, 위험 운전 동작의 유형을 제출한다. 경보 알림은, 팝업 대화 박스에서 텍스트 경보 알림, 내장된 음성 데이터 경보 알림과 같은 방식을 포함한다.
본 출원의 실시예는 전자 기기를 더 제공한다. 도 12는 본 출원의 실시예에서 제공되는 전자 기기의 하드웨어 구조 모식도이다. 메모리(44) 및 프로세서(41)를 포함하는 전자 기기(4000)를 포함하며, 상기 메모리(44)에는 컴퓨터 실행 가능한 명령어가 저장되고, 상기 프로세서(41)가 상기 메모리(44)에서 컴퓨터 실행 가능 명령어를 실행할 때 본 출원의 실시예에 전술한 동작 인식 방법, 또는 본 출원의 실시예에 전술한 운전 동작 분석 방법을 구현한다.
본 출원의 선택적인 실시예에서, 상기 전자 기기는 입력 장치(42), 출력 장치(43)를 포함할 수 있다. 상기 입력 장치(42), 출력 장치(43), 메모리(44) 및 프로세서(41) 사이는 버스를 통해 서로 연결된다.
메모리는 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read-Only Memory, ROM), 소거 가능 프로그래머블 판독 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 또는 판독 전용 컴팩트 디스크(Compact Disc Read-Only Memory, CD-ROM)를 포함하지만 이에 한정되지 않는며, 상기 메모리는 관련 명령어 및 데이테에 사용된다.
입력 장치는 데이터 및/또는 신호를 입력하기 위한 것이고, 및 출력 장치는 데이터 및/또는 신호를 출력하기 위한 것이다. 출력 장치 및 입력 장치는 독립적인 부품일 수 있고, 하나의 통합적인 부품일 수도 있다.
프로세서는 하나 또는 복수 개의 프로세서를 포함할 수 있고, 예를 들어 하나 또는 복수 개의 중앙 처리 장치(Central Processing Unit, CPU)를 포함하며, 프로세서가 하나의 CPU인 경우, 상기 CPU는 단일 코어 CPU일 수 있고, 멜티 코어 CPU일 수도 있다. 프로세서는 하나 또는 복수 개의 전용 프로세서를 더 포함할 수 있고, 전용 프로세서는 GPU, FPGA 등을 포함할 수 있으며, 가속 처리에 사용된다.
메모리는 네트워크 기기의 프로그램 코드 및 데이터를 저장하기 위한 것이다.
프로세서는 상기 메모리에서의 프로그램 코드 및 데이터를 호출하기 위한 것이고, 전술한 방법 실시예에서의 단계를 실행한다. 구체적인 내용은 방법 실시예의 설명을 참조하고, 여기서 더이상 설명하지 않는다.
이해할 수 있는 것은, 도 12는 전자 기기의 단순화된 설계를 예시한다. 실제 응용에서, 전자 기기는 또한 임의의 개수의 입력/출력 장치, 프로세서, 제어기, 메모리 등을 포함하지만 이에 한정되지 않는 다른 필요한 요소를 포함할 수 있으며, 본 출원의 실시예를 구현할 수 있는 모든 전자 기기는 본 출원의 실시예의 보호 범위 내에 있다.
또한, 본 출원 실시예는 또한 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 상기 명령이 실행될 때 본 출원의 전술한 실시예 중 임의의 동작 인식 방법의 동작을 구현하거나, 또는, 상기 명령이 실행될 때 본 출원에 전술한 실시예들 중 어느 하나에 따른 운전 동작 분석 방법의 동작이 실행한다.
본 출원의 실시예는 컴퓨터 판독 가능 명령을 포함하는 컴퓨터 프로그램을 더 제공하며, 상기 컴퓨터 판독 가능 명령이 기기에서 실행될 때, 상기 기기의 프로세서는 본 출원에서 전술한 실시예 중 어느 하나에 따른 동작 인식 방법의 단계를 구현하기 위한 실행 가능한 명령을 실행하거나, 또는, 상기 기기의 프로세서는 본 출원에 전술한 실시예 중 어느 하나에 따른 운전 동작 분석 방법의 단계를 구현하기 위한 실행 가능한 명령을 실행한다.
본 출원에서 제공하는 몇 개의 실시예에서, 개시된 기기 및 방법은, 다른 형태를 통해 구현될 수 있음을 이해할 수 있을 것이다. 이상에서 설명한 장치 실시예는 다만 예시적인 것이고, 예를 들면 상기 유닛의 분할은 다만 논리적 기능 분할일 뿐이고 실제 응용시 다른 분할 방식이 있을 수 있으며, 예를 들어, 복수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 조합 또는 통합될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 각각의 디스플레이되거나 논의된 구성 요소 사이의 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 통한 기기 또는 유닛의 간접 결합 또는 통신 연결일 수 있으며, 전기적, 기계적 또는 다른 형태 일 수있다.
상기 분리된 부재로서 설명된 유닛은 물리적으로 분리될 수도 있고 물리적으로 분리되지 않을 수도 있으며, 유닛으로 디스플레이된 부재는 물리적 유닛일 수도 있고 아닐 수도 있으며, 즉 동일한 장소에 위치할 수도 있고, 또는 복수 개의 네트워크 유닛에 분포될 수도 있으며; 실제 필요에 따라 그 중의 일부 또는 전부를 선택하여 실시예의 방안의 목적을 구현할 수 있다.
또한, 본 발명의 각 실시예에서의 각 기능 유닛은 하나의 처리 유닛에 통합될 수 있거나, 각 유닛은 또한 하나의 독립적인 유닛으로서 기능할 수 있거나, 둘 또는 둘 이상의 유닛이 하나의 유닛에 통합될 수 있으며; 상기 통합된 유닛은 하드웨어 형태로 구현될 수도 있고 하드웨어 및 소프트웨어 기능 유닛 형태로 구현될 수도 있다.
당업자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완료될 수 있으며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 수행될 때, 전술한 방법의 실시예를 수행하기 위한 동작을 포함하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크
또는, 본 발명의 상기 통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로 판매되거나 사용되는 경우 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해에 기반하여, 본 발명의 실시예의 기술방안은 실질적으로 또는 선행기술에 기여하는 부분이 소프트웨어 제품의 형태로 구현될 수 있고, 상기 컴퓨터 소프트웨어 제품은 컴퓨터 기기(개인용 컴퓨터, 서버, 또는 네트워크 기기 등)가 본 발명의 각 실시예의 방법의 전부 또는 일부를 실행할 수 있도록 구성된 복수의 명령어를 포함하는 하나의 저장 매체에 저장된다. 전술한 저장 매체는 모바일 저장 장치, ROM, RAM, 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수있는 매체를 포함한다.
본 출원에서 제공하는 방법 실시예에 개시된 방법은 새로운 방법 실시예를 얻기 위해 충돌을 일으키지 않고 임의로 조합될 수있다.
본 출원에서 제공하는 몇가지 제품은 실시예에 개시된 특징은 새로운 제품 실시예를 얻기 위해 충돌을 일으키지 않고 임의로 조합될 수있다.
본 출원에 의해 제공되는 방법 또는 장치 실시예에 개시된 특징은 충돌을 일으키지 않고 임의로 결합되어 새로운 방법 또는 장치 실시예를 얻을 수 있다.
이상, 본 발명의 구체적인 실시형태일 뿐 본 발명의 보호범위는 이에 한정되지 않으며, 당업자가 본 발명에 개시된 기술범위 내에서 용이하게 생각할 수 있는 변경 또는 대체는 모두 본 출원의 보호범위에 포함되어야 할 것이다. 따라서, 본 출원의 보호 범위는 특허청구범위의 보호 범위를 기준으로 해야 한다.

Claims (51)

  1. 동작 인식 방법으로서,
    뉴럴 네트워크의 특징 추출 분기를 통해 얼굴을 포함하는 이미지 중의 특징을 추출하여, 특징 맵을 획득하는 단계;
    상기 뉴럴 네트워크의 후보 박스 추출 분기에 의해 상기 특징 맵에서 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하는 단계;
    상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계 - 상기 동작 목표 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체를 포함함 - ; 및
    상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  2. 제1항에 있어서,
    상기 얼굴의 로컬 영역은 입 영역, 귀 영역 및 눈 영역 중 적어도 하나를 포함하며,
    상기 동작 상호 작용 객체는 용기, 담배, 휴대폰, 음식, 도구, 음료수 병, 안경 및 마스크 중 적어도 하나를 포함하며,
    상기 동작 목표 박스는 손 영역을 더 포함하며,
    상기 기설정된 동작은 통화, 흡연, 물/음료 마시기, 음식 먹기, 도구 사용, 안경 착용, 메이크업 중 적어도 하나를 포함하는 것을 특징으로 하는 동작 인식 방법.
  3. 제1항에 있어서,
    상기 동작 인식 방법은,
    차량에 탑재된 카메라에 의해 차량 탑승자의 이미지를 캡처하는 단계 - 이미지는 사람의 얼굴을 포함함 - 를 더 포함하고,
    상기 차량 탑승자는 상기 차량의 운전 영역의 운전자, 상기 차량의 조수석 영역의 사람, 상기 차량의 뒷좌석에 있는 사람 중 적어도 하나를 포함하며,
    상기 차량 탑재 카메라는 RGB 카메라, 적외선 카메라 또는 근적외선 카메라인 것을 특징으로 하는 동작 인식 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 뉴럴 네트워크의 후보 박스 추출 분기에 의해 상기 특징 맵에서 기설정된 동작을 포함 가능한 복수 개의 후보 박스를 결정하는 단계는,
    상기 기설정된 동작의 특징에 따라 상기 특징 맵에서의 특징에 대해 분할을 수행하여, 복수 개의 후보 영역을 획득하는 단계; 및
    상기 복수 개의 후보 영역에 따라, 복수 개의 후보 박스 및 상기 복수 개의 후보 박스에서의 각 후보 박스의 제1 신뢰도를 획득하는 단계 - 상기 제1 신뢰도는 상기 후보 박스가 상기 동작 목표 박스일 확률임 - 를 포함하는 것을 특징으로 하는 동작 인식 방법.
  6. 제1항에 있어서,
    상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계는,
    상기 뉴럴 네트워크의 검출 박스 정제 분기에 의해 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  7. 제6항에 있어서,
    상기 뉴럴 네트워크의 검출 박스 정제 분기에 의해 상기 복수 개의 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계는,
    상기 뉴럴 네트워크의 검출 박스 정제 분기에 의해 제1 신뢰도보다 작은 제1 임계값을 갖는 후보 박스를 제거하여, 적어도 하나의 제1 후보 박스를 획득하는 단계;
    상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 적어도 하나의 제2 후보 박스를 획득하는 단계; 및
    상기 적어도 하나의 제2 후보 박스에 따라, 동작 목표 박스를 결정하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  8. 제7항에 있어서,
    상기 적어도 하나의 제1 후보 박스를 풀링 처리하여, 적어도 하나의 제2 후보 박스를 획득하는 단계는,
    상기 적어도 하나의 제1 후보 박스에 대해 각각 풀링 처리하여, 상기 적어도 하나의 제1 후보 박스에 대응하는 적어도 하나의 제1 특징 영역을 획득하는 단계; 및
    각 제1 특징 영역에 기반하여 대응하는 제1 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  9. 제8항에 있어서,
    상기 각 제1 특징 영역에 기반하여 대응하는 제1 후보 박스의 위치 및 크기에 대해 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하는 단계는,
    상기 제1 특징 영역에서 상기 기설정된 동작에 대응하는 특징에 기반하여, 상기 기설정된 동작의 특징에 대응하는 제1 동작 특징 박스를 획득하는 단계;
    상기 제1 동작 특징 박스의 기하학적 중심 좌표에 따라, 상기 적어도 하나의 제1 후보 박스의 제1 위치 오프셋을 획득하는 단계;
    상기 제1 동작 특징 박스의 크기에 따라, 상기 적어도 하나의 제1 후보 박스의 제1 스케일 인자를 획득하는 단계; 및
    적어도 하나의 제1 위치 오프셋 및 적어도 하나의 제1 스케일 인자에 따라 상기 적어도 하나의 제1 후보 박스의 위치 및 크기에 대해 각각 조정을 수행하여, 적어도 하나의 제2 후보 박스를 획득하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  10. 제1항에 있어서,
    상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하는 단계는,
    상기 뉴럴 네트워크의 동작 분류 분기에 의해 상기 특징 맵의 상기 동작 목표 박스에 대응하는 영역 이미지를 획득하고, 상기 영역 이미지에 기반하여 기설정된 동작의 분류를 수행하여, 동작 인식 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  11. 제1항에 있어서,
    상기 뉴럴 네트워크는 훈련 이미지 세트에 기반하여 사전 감독된 훈련에 의해 획득되고, 상기 훈련 이미지 세트는 복수 개의 샘플 이미지를 포함 - 상기 샘플 이미지의 주석 정보는 동작 감독 박스 및 상기 동작 감독 박스에 대응하는 동작 유형을 포함함 - 하는 것을 특징으로 하는 동작 인식 방법.
  12. 제11항에 있어서,
    상기 훈련 이미지 세트는 양의 샘플 이미지 및 음의 샘플 이미지를 포함하고, 상기 음의 샘플 이미지의 동작은 상기 양의 샘플 이미지의 동작과 유사하며, 상기 양의 샘플의 동작 감독 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체, 또는 얼굴의 로컬 영역, 손 영역 및 동작 상호 작용 객체를 포함하는 것을 특징으로 하는 동작 인식 방법.
  13. 제12항에 있어서,
    상기 양의 샘플 이미지의 동작은 통화를 포함하고, 상기 음의 샘플 이미지는 귀를 긁는 것을 포함하는 것 및 상기 양의 샘플 이미지는 흡연, 음식 섭취 또는 물 마시기를 포함하고, 상기 음의 샘플 이미지는 입을 벌리거나 또는 입술에 손을 대는 동작을 포함하는 것 중 적어도 하나인 것을 특징으로 하는 동작 인식 방법.
  14. 제11항에 있어서,
    상기 뉴럴 네트워크의 훈련 방법은,
    샘플 이미지의 제1 특징 맵을 추출하는 단계;
    상기 제1 특징 맵이 기설정된 동작을 포함 가능한 복수 개의 제3 후보 박스를 추출하는 단계;
    상기 복수 개의 제3 후보 박스에 기반하여 목표 박스를 결정하는 단계;
    상기 동작 목표 박스에 기반하여 기설정된 동작을 분류하여, 동작 인식 결과를 획득하는 단계;
    상기 샘플 이미지의 후보 박스의 검출 결과 및 검출 박스 주석 정보의 제1 손실, 및 동작 인식 결과 및 동작 유형 주석 정보의 제2 손실을 결정하는 단계; 및
    상기 제1 손실 및 상기 제2 손실에 따라 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  15. 제14항에 있어서,
    상기 복수 개의 제3 후보 박스에 기반하여 동작 목표 박스를 결정하는 단계는,
    상기 기설정된 동작에 따라, 제1 동작 감독 박스를 획득하는 단계 - 상기 제1 동작 감독 박스는 얼굴의 로컬 영역 및 동작 상호 작용 객체 또는 얼굴의 로컬 영역, 손 영역 및 동작 상호 작용 객체를 포함함 - ;
    상기 복수 개의 제3 후보 박스의 제2 신뢰도를 획득하는 단계 - 상기 제2 신뢰도는 상기 제3 후보 박스가 상기 동작 목표 박스인 제1 확률 및 상기 제3 후보 박스가 상기 동작 목표 박스가 아닌 제2 확률을 포함함 - ;
    상기 복수 개의 제3 후보 박스와 상기 제1 동작 감독 박스의 면적 중첩도를 결정하는 단계;
    상기 면적 중첩도가 제2 임계값보다 크거나 같으면, 상기 면적 중첩도에 대응하는 상기 제3 후보 박스의 상기 제2 신뢰도를 상기 제1 확률로 취하고; 상기 면적 중첩도가 상기 제2 임계값보다 작으면, 상기 면적 중첩도에 대응하는 상기 제3 후보 박스의 상기 제2 신뢰도를 상기 제2 확률로 취하는 단계;
    상기 제2 신뢰도가 상기 제1 임계값보다 작은 상기 복수 개의 제3 후보 박스를 제거하여, 복수 개의 제4 후보 박스를 획득하는 단계; 및
    상기 제4 후보 박스의 위치 및 크기를 조정하여, 상기 동작 목표 박스를 획득하는 단계를 포함하는 것을 특징으로 하는 동작 인식 방법.
  16. 운전 동작 분석 방법으로서,
    차량에 탑재된 카메라에 의해 운전자 얼굴 이미지를 포함하는 비디오 스트림을 획득하는 단계;
    제1항에 따른 동작 인식 방법을 통해, 상기 비디오 스트림 중 적어도 하나의 프레임 이미지의 동작 인식 결과를 획득하는 단계; 및
    기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 위험 운전 프롬프트 정보를 생성하는 단계를 포함하고,
    상기 기설정된 조건은, 기설정된 특정 동작의 발생; 기설정된 시간내에 기설정된 동작의 발생 횟수; 상기 비디오 스트림에서 기설정된 특정 동작의 발생 유지 기간 중 적어도 하나를 포함하는 것을 특징으로 하는 운전 동작 인식 방법.
  17. 제16항에 있어서,
    상기 동작 인식 방법은,
    차량에 탑재된 듀얼 카메라가 설치된 차량의 속도를 획득하는 단계를 더 포함하며;
    상기 기설정된 조건을 만족하는 동작 인식 결과에 응답하여, 위험 운전 프롬프트 정보를 생성하는 단계는, 상기 차량의 속도가 설정된 임계값보다 큰 경우 및 상기 동작 인식 결과가 상기 기설정된 조건을 만족하는 것에 응답하여, 위험 운전 프롬프트 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 운전 동작 인식 방법.
  18. 메모리 및 프로세서를 포함한 전자 기기로서,
    상기 메모리에는 컴퓨터 실행 가능한 명령어가 저장되고, 상기 프로세서가 상기 메모리에서 컴퓨터 실행 가능 명령어를 실행할 때 제1항 내지 제3항, 및 제5항 내지 제15항 중 어느 한 항에 따른 방법 또는 제16항 내지 제17항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 전자 기기.
  19. 컴퓨터 명령어가 저장된 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제1항 내지 제3항, 및 제5항 내지 제15항 중 어느 한 항에 따른 방법 또는 제16항 내지 제17항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  20. 컴퓨터 판독 가능한 저장 매체에 저장되는 컴퓨터 명령어를 포함한 컴퓨터 프로그램으로서,
    상기 컴퓨터 명령어가 기기의 프로세서에서 실행될 때, 제1항 내지 제3항, 및 제5항 내지 제15항 중 어느 한 항에 따른 방법 또는 제16항 내지 제17항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 프로그램.
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
KR1020207027826A 2018-09-27 2019-09-26 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기 KR102470680B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811130798.6 2018-09-27
CN201811130798.6A CN110956060A (zh) 2018-09-27 2018-09-27 动作识别、驾驶动作分析方法和装置及电子设备
PCT/CN2019/108167 WO2020063753A1 (zh) 2018-09-27 2019-09-26 动作识别、驾驶动作分析方法和装置、电子设备

Publications (2)

Publication Number Publication Date
KR20200124280A KR20200124280A (ko) 2020-11-02
KR102470680B1 true KR102470680B1 (ko) 2022-11-25

Family

ID=69951010

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207027826A KR102470680B1 (ko) 2018-09-27 2019-09-26 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기

Country Status (6)

Country Link
US (1) US20210012127A1 (ko)
JP (1) JP7061685B2 (ko)
KR (1) KR102470680B1 (ko)
CN (1) CN110956060A (ko)
SG (1) SG11202009320PA (ko)
WO (1) WO2020063753A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490202B (zh) * 2019-06-18 2021-05-25 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质
US11222242B2 (en) * 2019-08-23 2022-01-11 International Business Machines Corporation Contrastive explanations for images with monotonic attribute functions
US10803334B1 (en) * 2019-10-18 2020-10-13 Alpine Electronics of Silicon Valley, Inc. Detection of unsafe cabin conditions in autonomous vehicles
KR102374211B1 (ko) * 2019-10-28 2022-03-15 주식회사 에스오에스랩 객체 인식 방법 및 이를 수행하는 객체 인식 장치
US11043003B2 (en) 2019-11-18 2021-06-22 Waymo Llc Interacted object detection neural network
CN112947740A (zh) * 2019-11-22 2021-06-11 深圳市超捷通讯有限公司 基于动作分析的人机交互方法、车载装置
CN111553282B (zh) * 2020-04-29 2024-03-29 北京百度网讯科技有限公司 用于检测车辆的方法和装置
CN111931640B (zh) * 2020-08-07 2022-06-10 上海商汤临港智能科技有限公司 异常坐姿识别方法、装置、电子设备及存储介质
CN112270210B (zh) * 2020-10-09 2024-03-01 珠海格力电器股份有限公司 数据处理、操作指令识别方法、装置、设备和介质
CN112257604A (zh) * 2020-10-23 2021-01-22 北京百度网讯科技有限公司 图像检测方法、装置、电子设备和存储介质
CN112339764A (zh) * 2020-11-04 2021-02-09 杨华勇 一种基于大数据的新能源汽车驾驶姿态分析系统
CN113011279A (zh) * 2021-02-26 2021-06-22 清华大学 粘膜接触动作的识别方法、装置、计算机设备和存储介质
CN117203678A (zh) * 2021-04-15 2023-12-08 华为技术有限公司 目标检测方法和装置
CN113205067B (zh) * 2021-05-26 2024-04-09 北京京东乾石科技有限公司 作业人员监控方法、装置、电子设备和存储介质
CN113205075A (zh) * 2021-05-31 2021-08-03 浙江大华技术股份有限公司 一种检测吸烟行为的方法、装置及可读存储介质
CN113362314B (zh) * 2021-06-18 2022-10-18 北京百度网讯科技有限公司 医学图像识别方法、识别模型训练方法及装置
CN114670856B (zh) * 2022-03-30 2022-11-25 湖南大学无锡智能控制研究院 一种基于bp神经网络的参数自整定纵向控制方法及系统
CN116901975B (zh) * 2023-09-12 2023-11-21 深圳市九洲卓能电气有限公司 一种车载ai安防监控系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101386823B1 (ko) * 2013-10-29 2014-04-17 김재철 동작, 안면, 눈, 입모양 인지를 통한 2단계 졸음운전 방지 장치
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN106780612A (zh) * 2016-12-29 2017-05-31 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN106815574A (zh) * 2017-01-20 2017-06-09 博康智能信息技术有限公司北京海淀分公司 建立检测模型、检测接打手机行为的方法和装置
JP2017215861A (ja) * 2016-06-01 2017-12-07 トヨタ自動車株式会社 行動認識装置,学習装置,並びに方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447100B2 (en) * 2007-10-10 2013-05-21 Samsung Electronics Co., Ltd. Detecting apparatus of human component and method thereof
TWI474264B (zh) * 2013-06-14 2015-02-21 Utechzone Co Ltd 行車警示方法及車用電子裝置
CN104573659B (zh) * 2015-01-09 2018-01-09 安徽清新互联信息科技有限公司 一种基于svm的驾驶员接打电话监控方法
CN105260703B (zh) * 2015-09-15 2019-07-05 西安邦威电子科技有限公司 一种适用于多姿态下的驾驶人员抽烟行为检测方法
CN105260705B (zh) * 2015-09-15 2019-07-05 西安邦威电子科技有限公司 一种适用于多姿态下的驾驶人员接打电话行为检测方法
CN106096607A (zh) * 2016-06-12 2016-11-09 湘潭大学 一种车牌识别方法
CN106941602B (zh) * 2017-03-07 2020-10-13 中国铁路总公司 机车司机行为识别方法及装置
CN107316001A (zh) * 2017-05-31 2017-11-03 天津大学 一种自动驾驶场景中小且密集的交通标志检测方法
CN107316058A (zh) * 2017-06-15 2017-11-03 国家新闻出版广电总局广播科学研究院 通过提高目标分类和定位准确度改善目标检测性能的方法
CN107563446B (zh) * 2017-09-05 2020-08-18 华中科技大学 一种微操作系统目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101386823B1 (ko) * 2013-10-29 2014-04-17 김재철 동작, 안면, 눈, 입모양 인지를 통한 2단계 졸음운전 방지 장치
JP2017215861A (ja) * 2016-06-01 2017-12-07 トヨタ自動車株式会社 行動認識装置,学習装置,並びに方法およびプログラム
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN106780612A (zh) * 2016-12-29 2017-05-31 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN106815574A (zh) * 2017-01-20 2017-06-09 博康智能信息技术有限公司北京海淀分公司 建立检测模型、检测接打手机行为的方法和装置

Also Published As

Publication number Publication date
WO2020063753A1 (zh) 2020-04-02
JP7061685B2 (ja) 2022-04-28
SG11202009320PA (en) 2020-10-29
JP2021517312A (ja) 2021-07-15
CN110956060A (zh) 2020-04-03
US20210012127A1 (en) 2021-01-14
KR20200124280A (ko) 2020-11-02

Similar Documents

Publication Publication Date Title
KR102470680B1 (ko) 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기
US10387725B2 (en) System and methodologies for occupant monitoring utilizing digital neuromorphic (NM) data and fovea tracking
US9891716B2 (en) Gesture recognition in vehicles
US20210081754A1 (en) Error correction in convolutional neural networks
CN111587437A (zh) 使用视频管的活动识别方法
KR101198322B1 (ko) 얼굴 표정 인식 방법 및 시스템
US20170045950A1 (en) Gesture Recognition Systems
KR20180051367A (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
CN110956061B (zh) 动作识别方法及装置、驾驶员状态分析方法及装置
KR20210142177A (ko) 어린이 상태 검출 방법 및 장치, 전자 기기, 메모리
EP4042318A1 (en) System and method of generating a video dataset with varying fatigue levels by transfer learning
KR20200118076A (ko) 생체 검출 방법 및 장치, 전자 기기 및 저장 매체
US20190304136A1 (en) Gaze point estimation processing apparatus, gaze point estimation model generation apparatus, gaze point estimation processing system, and gaze point estimation processing method
CN112487844A (zh) 手势识别方法、电子设备、计算机可读存储介质和芯片
KR20190119212A (ko) 인공신경망을 이용한 가상 피팅 시스템, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN116824533A (zh) 一种基于注意力机制的远小目标点云数据特征增强方法
KR20180074562A (ko) 전자 장치 및 이의 제어 방법
KR20180071156A (ko) 동영상을 필터링하는 방법 및 장치
KR101542206B1 (ko) 코아스-파인 기법을 이용한 객체 추출과 추적 장치 및 방법
Poon et al. Driver distracted behavior detection technology with YOLO-based deep learning networks
CN115937991A (zh) 人体摔倒识别方法、装置、计算机设备及存储介质
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
CN112800923A (zh) 人体图像质量检测方法及装置、电子设备、存储介质
KR102039166B1 (ko) 순환 구조 인공신경망을 이용한 가상 피팅을 수행하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
US20230394773A1 (en) Smart Interactivity for Scanned Objects using Affordance Regions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant