KR20210104107A - 주시 영역 검출 방법, 장치 및 전자 디바이스 - Google Patents
주시 영역 검출 방법, 장치 및 전자 디바이스 Download PDFInfo
- Publication number
- KR20210104107A KR20210104107A KR1020217022187A KR20217022187A KR20210104107A KR 20210104107 A KR20210104107 A KR 20210104107A KR 1020217022187 A KR1020217022187 A KR 1020217022187A KR 20217022187 A KR20217022187 A KR 20217022187A KR 20210104107 A KR20210104107 A KR 20210104107A
- Authority
- KR
- South Korea
- Prior art keywords
- gaze
- face image
- area
- detecting
- information
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 claims abstract description 119
- 210000003128 head Anatomy 0.000 claims description 95
- 238000012549 training Methods 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 39
- 238000012544 monitoring process Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 15
- 230000001815 facial effect Effects 0.000 claims description 8
- 238000013519 translation Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G06K9/00228—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G06K9/00288—
-
- G06K9/00597—
-
- G06K9/36—
-
- G06K9/6256—
-
- G06K9/6267—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/225—Direction of gaze
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Ophthalmology & Optometry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 주시 영역 검출 방법, 장치 및 전자 디바이스를 제공한다. 상기 방법은 소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하는 것; 상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는 것; 및 상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출하는 것을 포함하되, 상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다.
Description
[관련 출원의 상호 참조 인용]
본 발명은 출원일이 2019년3월18일이고, 출원 번호가 201910204793.1이며, 발명 명칭이 "주시 영역 검출 방법, 장치 및 전자 디바이스”인 중국 특허 출원의 우선권을 주장하는바, 당해 중국 특허 출원의 모든 내용을 인용하는 방식으로 본 출원에 병합시킨다.
[기술분야]
본 발명은 컴퓨터 비전 기술의 분야에 관한 것인바, 특히 주시 영역 검출 방법, 장치 및 전자 디바이스에 관한 것이다.
주시 영역의 검출은, 지능형 운전, 인간-컴퓨터 인터렉티브, 보안 모니터링 등과 같은 애플리케이션에서 중요한 역할을 할 수 있다. 인간-컴퓨터 인터렉티브의 관점에서, 공간 내의 눈의 3차원 위치를 확정하고, 또한 3차원 시선 방향을 결합하여, 사람의 주시 점의 3차원 공간 내의 위치를 얻을 수 있으며, 기계에 출력하여 또한 인터렉티브 처리를 수행하도록 한다. 주의력 검출에 관점에서, 눈의 시선 방향을 추정함으로써, 사람의 주시 방향을 판단하고, 사람의 관심 영역을 얻으며, 사람의 주의력이 집중되고 있는지 여부를 판단할 수 있다.
본 발명의 제1 양태에 따르면, 주시 영역 검출 방법을 제공하는바, 당해 방법은 소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하는 것; 상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는 것; 및 상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출하는 것을 포함하되, 상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다.
본 발명의 제2 양태에 따르면, 주시 영역 검출 장치를 제공하는바, 상기 장치는 소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하기 위한 이미지 취득 모듈; 상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻기 위한 시선 검출 모듈; 및 상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출하기 위한 주시 영역 검출 모듈을 구비하되, 상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다.
본 발명의 제3 양태에 따르면, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 제공하는바, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 당해 프로세서로 하여금 상기의 제1 양태의 방법을 실현하도록 한다.
본 발명의 제4 양태에 따르면, 전자 디바이스를 제공하는바, 당해 전자 디바이스는 메모리 및 프로세서를 구비하며, 상기 메모리에는 컴퓨터 프로그램이 기억되어 있으며, 상기 프로세서로 하여금 상기 컴퓨터 프로그램을 실행할 때에, 상기의 제1 양태의 방법을 실현하도록 한다.
본 발명의 실시예에 따르면, 소정의 3차원 공간의 변화에 대해, 각 3차원 공간에 대해 대응하는 주시 영역 분류기만을 트레이닝할 필요가 있다. 분류기의 트레이닝이 대량의 데이터를 필요로 하지 않으며, 또한 트레이닝 속도가 상대적으로 빠르기 때문에, 서로 다른 3차원 공간(예를 들면 서로 다른 차량 모델의 공간) 사이에서 주시 영역 검출 방법을 이전할 때의 시간 비용 및 기술적 어려움을 대폭으로 줄일 수 있다.
도 1은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 방법의 플로우 챠트다.
도 2는 본 발명의 예시적인 실시예에 따른 소정의 3차원 공간에 대한 주시 영역 분류기를 실시간으로 트레이닝하는 방법의 플로우 챠트다.
도 3은 본 발명의 예시적인 실시예에 따른 복수 종류의 정의된 주시 영역의 모식도이다.
도 4는 본 발명의 예시적인 실시예에 따른 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정하는 방법의 플로우 챠트다.
도 5는 본 발명의 예시적인 실시예에 따른 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하는 방법의 플로우 챠트다.
도 6은 본 발명의 예시적인 실시예에 따른 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하는 방법의 플로우 챠트다.
도 7은 본 발명의 예시적인 실시예에 따른 머리 형태 정보에 기반하여 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하는 방법의 플로우 챠트다.
도 8a는 본 발명의 예시적인 실시예에 따른 얼굴 이미지에 대해 정규화 처리를 수행하여 정규화된 얼굴 이미지를 얻는 방법의 플로우 챠트다.
도 8b는 본 발명의 예시적인 실시예에 따른 취득한 얼굴 이미지에 대해 정규화 처리를 수행하는 모식도이다.
도 9a는 본 발명의 예시적인 실시예에 따른 분류기가 목표 주시 영역의 종류를 출력하는 모식도이다.
도 9b는 본 발명의 예시적인 실시예에 따른 분류기가 목표 주시 영역의 명칭을 출력하는 모식도이다.
도 10은 본 발명의 예시적인 실시예에 따른 3차원 시선 방향을 검출하기 위한 신경망을 트레이닝하는 방법의 플로우 챠트다.
도 11은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 블록 도이다.
도 12는 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 시선 검출 모듈의 블록 도이다.
도 13은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 다른 하나의 시선 검출 모듈의 블록 도이다.
도 14는 본 발명의 예시적인 실시예에 따른 도 12 및 도 13 중의 눈 위치 검출 서브 모듈의 블록 도이다.
도 15는 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 다른 하나의 시선 검출 모듈의 블록 도이다.
도 16은 본 발명의 예시적인 실시예에 따른 도 15안의 시선 검출 모듈의 형태 검출 서브 모듈의 블록 도이다.
도 17은 본 발명의 예시적인 실시예에 따른 도 15안의 시선 검출 모듈의 방향 검출 서브 모듈의 블록 도이다.
도 18은 본 발명의 예시적인 실시예에 따른 도 17안의 방향 검출 서브 모듈의 화상 처리 유닛의 블록 도이다.
도 19는 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 20은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 21은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 22는 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 23은 본 발명의 예시적인 실시예에 따른 전자 디바이스의 블록 도이다.
도 2는 본 발명의 예시적인 실시예에 따른 소정의 3차원 공간에 대한 주시 영역 분류기를 실시간으로 트레이닝하는 방법의 플로우 챠트다.
도 3은 본 발명의 예시적인 실시예에 따른 복수 종류의 정의된 주시 영역의 모식도이다.
도 4는 본 발명의 예시적인 실시예에 따른 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정하는 방법의 플로우 챠트다.
도 5는 본 발명의 예시적인 실시예에 따른 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하는 방법의 플로우 챠트다.
도 6은 본 발명의 예시적인 실시예에 따른 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하는 방법의 플로우 챠트다.
도 7은 본 발명의 예시적인 실시예에 따른 머리 형태 정보에 기반하여 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하는 방법의 플로우 챠트다.
도 8a는 본 발명의 예시적인 실시예에 따른 얼굴 이미지에 대해 정규화 처리를 수행하여 정규화된 얼굴 이미지를 얻는 방법의 플로우 챠트다.
도 8b는 본 발명의 예시적인 실시예에 따른 취득한 얼굴 이미지에 대해 정규화 처리를 수행하는 모식도이다.
도 9a는 본 발명의 예시적인 실시예에 따른 분류기가 목표 주시 영역의 종류를 출력하는 모식도이다.
도 9b는 본 발명의 예시적인 실시예에 따른 분류기가 목표 주시 영역의 명칭을 출력하는 모식도이다.
도 10은 본 발명의 예시적인 실시예에 따른 3차원 시선 방향을 검출하기 위한 신경망을 트레이닝하는 방법의 플로우 챠트다.
도 11은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 블록 도이다.
도 12는 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 시선 검출 모듈의 블록 도이다.
도 13은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 다른 하나의 시선 검출 모듈의 블록 도이다.
도 14는 본 발명의 예시적인 실시예에 따른 도 12 및 도 13 중의 눈 위치 검출 서브 모듈의 블록 도이다.
도 15는 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 다른 하나의 시선 검출 모듈의 블록 도이다.
도 16은 본 발명의 예시적인 실시예에 따른 도 15안의 시선 검출 모듈의 형태 검출 서브 모듈의 블록 도이다.
도 17은 본 발명의 예시적인 실시예에 따른 도 15안의 시선 검출 모듈의 방향 검출 서브 모듈의 블록 도이다.
도 18은 본 발명의 예시적인 실시예에 따른 도 17안의 방향 검출 서브 모듈의 화상 처리 유닛의 블록 도이다.
도 19는 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 20은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 21은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 22는 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치의 블록 도이다.
도 23은 본 발명의 예시적인 실시예에 따른 전자 디바이스의 블록 도이다.
여기서 예시적인 실시예를 상세하게 설명하며 그 예를 도면에 나타낸다. 이하의 설명에서 도면을 언급할 경우, 특히 명기하지 않는 한, 서로 다른 도면에서의 동일한 숫자는 동일 또는 유사한 요소를 나타낸다. 이하의 예시적인 실시예에 서술되는 실시 형태는 본 발명에 부합되는 모든 실시 형태를 대표하지 않는다. 반대로, 이들은 첨부된 특허청구의 범위에 기재된 본 발명의 몇몇의 양태와 일치한 장치 및 방법의 예에 지나지 않는다.
본 발명에서 사용되는 용어는 특정 실시예를 설명하는 것만을 목적으로 할 뿐, 본 발명을 한정하려 의도하지 않는다. 본 발명으로 사용되는 "일종”, "상기", "당해" 등의 단수형은 문맥이 다른 의미를 명확히 나타내지 않는 한, 복수형을 포함하는 것을 의도한다. 본 명세서에서 사용되는 "및/또는"이라는 용어는 하나 또는 복수가 관련되게 리스트된 아이템 중의 임의의 하나 또는 모든 가능한 조합을 포함하는 것을 나타냄을 이해해야 한다.
본 발명에서는 제1, 제2, 제3 등의 용어를 사용하여 다양한 정보를 기술하지만, 이러한 정보는 이러한 용어에 의해 한정되지 않음을 이해해야 한다. 이러한 용어는 단지 같은 종류의 정보를 서로 구별하기 위해서만 사용된다. 예를 들면 본 발명의 범위에서 벗어나지 않는 한, 제1 정보는 제2 정보로 불릴 수 있고, 마찬가지로 제2 정보는 제1 정보로 불릴 수 있다. 문맥에 따라 본 명세서에서 사용되는 "만약”이라는 단어는, "…경우", "…면”, 또는 "…것에 응답하여"로 해석될 수 있다.
본 발명은 주시 영역 검출 방법을 제공하는바, 지능형 운전, 인간-컴퓨터 인터렉티브, 보안 모니터링 등의 씬에 적용될 수 있다. 본 발명은 당해 주시 영역 검출 방법을 지능형 운전 씬에 적용하는 예를 들어 상세하게 설명한다.
본 발명의 실시예에 있어서, 관여하는 실행 주체는 컴퓨터 시스템 및 소정의 3차원 공간에 설치된 카메라를 포함할 수 있다. 소정의 3차원 공간에 설치된 카메라는 수집한 사용자의 얼굴 이미지 데이터를 상기의 컴퓨터 시스템에 송신할 수 있다. 당해 컴퓨터 시스템은 인공 신경망을 이용하여 상기의 얼굴 이미지 데이터에 대해 처리를 실행하여, 당해 사용자의 주의력이 소정의 3차원 공간 내의 어느 부분의 영역에 집중되어 있는지를 검출할 수 있는바, 즉 당해 사용자의 목표 주시 영역을 검출할 수 있으며, 컴퓨터 시스템이 상기의 사용자의 목표 주시 영역에 기반하여 스마트 주행 차량을 운전하기 위한 명령 등의 대응하는 조작 제어 정보를 출력하도록 할 수 있다.
상기의 컴퓨터 시스템은 서버, 서버 클러스터, 또는 클라우드 플랫폼에 설치될 수 있으며, 또한 컴퓨터, 차량용 디바이스, 이동 단말 등의 전자 디바이스 중의 컴퓨터 시스템일 수 있다. 상기의 카메라는 드라이빙 레코더 내의 카메라, 스마트 단말 카메라 등과 같은 차량용 디바이스일 수 있다. 상기의 스마트 단말은 예를 들면 스마트폰, PDA(Personal Digital Assistant, 개인용 디지털 처리 장치), 태블릿 컴퓨터, 차량용 디바이스 등과 같은 전자 디바이스를 포함할 수 있다. 구체적으로 실현하는 과정에 있어서, 카메라와 컴퓨터 시스템은, 서로 독립될 수도 있고, 서로 접속될 수도 있으며, 본 발명의 실시예에 의해 제공되는 주시 영역 검출 방법을 공동으로 실현할 수 있다. 이하, 컴퓨터 시스템을 예로 들어, 본 발명에 의해 제공되는 주시 영역 검출 방법을 상세하게 설명한다.
도 1은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 방법의 플로우 챠트다. 상기 방법은 컴퓨터 시스템에 의해 실행될 수 있으며, 다양한 스마트 디바이스 (예를 들면 스마트 교통 수단, 스마트 로봇, 스마트 홈 디바이스 등)에 적용될 수 있다. 도 1에 나타낸바와 같이, 당해 방법은 단계 11∼13을 포함할 수 있다.
단계 11에 있어서, 소정의 3차원 공간 내에서 수집된 얼굴 이미지를 취득한다.
M모델의 차량의 예를 들면, 소정의 3차원 공간은 당해 차량의 공간이며, 당해 차량의 중앙 콘솔 위치 등의 내부 공간에 하나의 카메라가 고정 설치될 수 있다. 당해 카메라는 실시간 또는 소정의 시간 주기로 드라이버 등의 목표 대상의 얼굴 이미지를 수집하여 컴퓨터 시스템에 제공함으로써, 당해 컴퓨터 시스템이 수집된 얼굴 이미지를 취득하도록 할 수 있다.
단계 12에 있어서, 상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는다.
본 발명의 실시예에 있어서, 컴퓨터 시스템은 상기의 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻을 수 있다. 시선 검출은 얼굴 이미지 내의 눈의 위치 및/또는 시선 방향을 분석함으로써 시선 검출 결과를 얻는 것이다. 본 발명은 시선 검출을 실행하는 방법에 대해 한정하지 않는바, 즉 본 발명의 실시예에 언급된 방법을 채용하여 시선 검출을 실행할 수도 있고, 종래의 기타 방법을 채용하여 시선 검출을 실행할 수도 있다. 상기의 시선 검출 결과는 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 포함할 수 있고, 얼굴 이미지 내의 인물의 머리 형태 등의 정보를 더 포함할 수 있다.
단계 13에 있어서, 상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출한다.
상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다. 예를 들면 전면 유리, 백미러, 또는 차 내의 기타 공간 등과 같은 차량 주행 과정에서 드라이버가 주시할 수 있는 각 공간을 소정의 3차원 공간으로 설정할 수 있다.
상기의 예와 같이, 컴퓨터 시스템은 상기의 얼굴 이미지 내의 인물의 시선 검출 결과를 얻은 후에, 상기의 시선 검출 결과를 사전에 트레이닝된 상기의 M모델의 스마트 운전 차량의 주시 영역 분류기에 입력함으로써, 상기의 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출할 수 있는바, 즉 이미지를 수집할 때의 드라이버 등의 얼굴 이미지 내의 사람이 차량의 어느 영역을 주시하고 있는지를 검출할 수 있다.
본 발명에 있어서, 상기의 소정의 3차원 공간에 대한 주시 영역 분류기는 컴퓨터 시스템에 의해 상기의 소정의 3차원 공간에 대한 트레이닝 샘플 세트를 이용하여 사전에 트레이닝된 것이며, 여기서 상기 트레이닝 샘플 세트는 복수의 시선 특징 샘플을 포함하고, 각 상기 시선 특징 샘플은 시선 시작점 정보, 시선 방향 정보 및 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보를 포함하며, 라벨링한 주시 영역의 종류는 상기 소정의 3차원 공간을 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다.
본 발명의 실시예에 따르면, 소정의 3차원 공간에 대해 주시 영역 분류기를 트레이닝하기 전에, 소정의 3차원 공간 내의 눈의 시선이 주목할 가능성이 있는 3차원 공간 영역을 세분하여 복수 종류의 정의된 주시 영역을 얻고, 또한 복수 종류의 정의된 주시 영역에 대응하는 트레이닝 샘플 세트에 기반하여 분류기 트레이닝을 실행함으로써, 소정의 3차원 공간에 대한 주시 영역 분류기를 얻는다. 후속에서 당해 주시 영역 분류기를 이용하여 시선 검출 결과에 기반하여 목표 주시 영역 정보를 정확하게 검출할 수 있으며, 계산이 간단하기에, 목표 주시 영역의 오판단율을 효과적으로 줄이고, 후속의 조작에 대해 더 정확한 정보를 제공할 수 있다.
상기의 단계 12에 대응하는 시선 검출 단계는, 소정의 3차원 공간 내의 복수 종류의 정의된 주시 영역의 분포와 관계가 없고, 상기의 단계 13에 대응하는 주시 영역 검출 단계는 상기의 복수 종류의 정의된 주시 영역의 소정의 3차원 공간에 있어서의 분포와 관계가 있다. 예를 들면 서로 다른 모델의 차량 공간 전체 크기는 서로 다를 가능성이 있으며, 또한 글로브 박스 등이 동일한 종류의 영역의 서로 다른 차량 공간 내의 위치가 서로 다를 가능성이 있기 때문에, 서로 다른 3차원 공간 내의 복수 종류의 정의된 주시 영역의 분할도 다를 가능성이 있는바, 예를 들면 정의된 주시 영역의 수량 및 종류가 다를 가능성이 있다. 따라서, 서로 다른 3차원 공간에 대해 서로 다른 주시 영역 분류기를 트레이닝할 필요가 있는바, 예를 들면 공간 분포가 다른 M모델 차량 및 N모델 차량에 대해, 서로 다른 주시 영역 분류기를 각각 트레이닝할 필요가 있다.
따라서, 서로 다른 모델의 차량에 대해 같은 방법을 채용하여 시선 검출을 실행할 수 있으며, 차량 모델을 변경할 때에 주시 영역 분류기를 재트레이닝하기만 하면 된다. 종단 간의 방식으로 컨벌루션 신경망의 전체를 재트레이닝할 경우와 비교하면, 주시 영역 분류기의 트레이닝은 상대적으로 간단하며, 많은 데이터를 필요로 하지 않고, 트레이닝 속도가 빠르기 때문에, 서로 다른 차량 모델 사이에서 상기의 주시 영역 검출 방법을 이전할 때의 시간 비용 및 기술적 어려움을 대폭으로 줄일 수 있다.
본 발명의 다른 일 실시예에 있어서, 상기의 주시 영역 검출 방법은 상기의 단계 11 전에, 상기 소정의 3차원 공간에 대한 트레이닝이 완료된 주시 영역 분류기를 취득하는 것을 더 포함할 수 있다. 본 발명에 있어서, 이하의 방식 1 또는 방식 2를 채용하여 상기 소정의 3차원 공간에 대한 트레이닝이 완료된 주시 영역 분류기를 취득할 수 있다.
방식 1에 있어서, 주시 영역 검출을 실행할 필요가 있을 때 소정의 3차원 공간에 대한 주시 영역 분류기를 실시간으로 트레이닝한다.
도 2에 나타낸바와 같이, 소정의 3차원 공간에 대한 주시 영역 분류기를 실시간으로 트레이닝하는 것은, 적어도 하나의 시선 특징 샘플의 시선 시작점 정보 및 시선 방향 정보를 트레이닝 대기의 주시 영역 분류기에 입력하여 당해 시선 특징 샘플에 대응하는 주시 영역 종류 예측 정보를 얻는 단계 101; 및 상기 주시 영역 종류 예측 정보와 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보 사이의 편차에 기반하여, 상기 주시 영역 분류기에 대해 파라미터 조정을 실행하여 상기 주시 영역 분류기를 트레이닝하는 단계 102를 더 포함할 수 있다.
예를 들면 상기의 소정의 3차원 공간은 특정 모델의 차량 공간일 수 있다. 먼저 얼굴 이미지를 수집하기 위한 카메라의 고정 위치를 확정한다. 예를 들면 카메라를 중앙 콘솔의 위치에 고정하여 운전 영역 내의 드라이버의 얼굴 이미지를 수집한다. 후속으로, 분류기 트레이닝 단계 및 검출 단계에서 필요한 얼굴 이미지는 모두 당해 고정 위치의 상기의 카메라를 이용하여 수집한다.
동시에, 상기의 차량의 서로 다른 부위에 대해 주시 영역 분할을 실행하는바, 주로는 차량 운전 과정에서 드라이버의 눈이 주목할 필요가 있는 영역에 기반하여, 상기의 차량 공간에서 복수 종류의 정의된 주시 영역을 분할하며, 복수 종류의 정의된 주시 영역에 대해 각각 대응하는 종류 정보를 설정한다.
본 발명에 일 실시예에 있어서, 차량 공간을 분할하여 얻은 복수 종류의 정의된 주시 영역은 왼쪽 전면 유리 영역, 오른쪽 전면 유리 영역, 계기판 영역, 내부 백미러 영역, 중앙 콘솔 영역, 왼쪽 백미러 영역, 오른쪽 백미러 영역, 차광판 영역, 변속 레버 영역, 스티어링 휠 아래 영역, 부조종사 영역, 부조종사 앞의 글로브 박스 영역 중의 적어도 둘을 포함할 수 있다.
도 3은 본 발명의 예시적인 실시예에 따른 복수 종류의 정의된 주시 영역의 모식도이다. 소정의 하나의 모델의 차량에 대해, 왼쪽 전면 유리, 오른쪽 전면 유리, 계기판, 인테리어 미러, 중앙 콘솔, 왼쪽 백미러, 오른쪽 백미러, 차광판 영역, 변속 레버, 휴대 전화와 같은 복수 종류의 정의된 주시 영역을 확정할 수 있다. 복수 종류의 정의된 주시 영역에 대해 각각 대응하는 종류 정보를 사전에 설정할 수 있는바, 예를 들면 숫자를 이용하여 종류값을 나타낼 수 있다. 상기의 복수 종류의 정의된 주시 영역과 소정의 종류값 사이의 대응 관계는 표 1에 나타낸바와 같을 수 있다.
정의된 주시 영역 | 종류값 |
왼쪽 전면 유리 | 1 |
오른쪽 전면 유리 | 2 |
계기판 | 3 |
인테리어 미러 | 4 |
중앙 콘솔 | 5 |
왼쪽 백미러 | 6 |
오른쪽 백미러 | 7 |
차광판 | 8 |
변속 레버 | 9 |
휴대 전화 | 10 |
상기의 종류 정보는 A, B, C…J등의 소정의 영어 문자로 나타낼 수도 있음을 설명할 필요가 있다.그 후, 얼굴 이미지 샘플을 수집하여 트레이닝 샘플 세트를 얻는다. 당해 트레이닝 샘플 세트는 복수의 시선 특징 샘플을 포함할 수 있으며, 여기서 각 상기 시선 특징 샘플은 시선 시작점 정보, 시선 방향 정보 및 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보를 포함하며, 라벨링한 주시 영역의 종류는 상기 소정의 3차원 공간을 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다. 여기서, 어떻게 얼굴 이미지에 기반하여 사람의 시선 시작점 정보 및 시선 방향 정보를 확정하는지에 대해서는 후속에서 상세하게 기술한다.
계속하여 상기의 트레이닝 샘플 세트를 이용하여 이하의 단계를 반복적으로 실행함으로써 상기의 소정의 3차원 공간에 대한 분류기를 트레이닝하는바, 여기서 당해 단계는 상기의 트레이닝 샘플 세트 중의 하나의 시선 특징 샘플의 시선 시작점 정보 및 시선 방향 정보를 트레이닝 대기의 주시 영역 분류기에 입력하여, 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 예측 정보를 얻는 것; 및 당해 시선 특징 샘플의 상기 주시 영역 종류에 대한 예측 정보 및 주시 영역 종류의 라벨링 정보 사이의 편차에 기반하여, 상기 주시 영역 분류기에 대해 파라미터 조정을 실행하여 상기 주시 영역 분류기를 트레이닝하는 것을 더 포함한다.
예시적인 일 실시예에 있어서, 상기의 단계 102는 하나의 시선 특징 샘플의 주시 영역 종류의 예측 값과 주시 영역 종류의 라벨링 값 사이의 차이값에 기반하여, 손실 함수 값을 얻는 것; 상기 손실 함수 값이 소정의 트레이닝 종료 조건을 충족시키면, 트레이닝을 종료하고, 현재 트레이닝 단계의 분류기를 트레이닝이 완료된 분류기로 확정하는 것; 및 상기 손실 함수 값이 상기의 소정의 트레이닝 종료 조건을 충족시키지 않으면, 상기 손실 함수 값에 기반하여 상기 주시 영역 분류기에 대해 파라미터 조정을 실행하는 것을 포함할 수 있다.
본 발명의 실시예에 있어서, 손실 함수는 트레이닝 과정에서 분류기 모델의 트레이닝 샘플에 대한 오분류 정도를 측정하기 위한 수학적 표현이다. 손실 함수 값은 트레이닝 샘플 세트 전체에 기반하여 얻을 수 있으며, 상기의 손실 함수 값이 클 수록 현재 트레이닝 단계의 분류기의 오분류율이 높은 것을 나타내고, 반대로 상기의 손실 함수 값이 작을 수록 현재 트레이닝 단계의 분류기의 오분류율이 작은 것을 나타낸다.
상기의 소정의 트레이닝 종료 조건은 주시 영역 분류기의 트레이닝을 종료하는 조건이다. 일 실시예에 있어서, 상기의 소정의 트레이닝 종료 조건은, 소정의 손실 함수의 손실 함수 값이 소정의 한계 값보다 작은 것일 수 있다. 이상적일 경우, 상기의 소정의 트레이닝 종료 조건은 손실 함수 값이 0과 같은 것이다. 이는 현재 분류기에 의해 예측된 주시 영역 종류가 모두 정확한 것을 나타낸다. 실제의 조작에 있어서, 주시 영역 분류기의 트레이닝 효율 및 트레이닝 비용의 문제를 고려하면, 상기의 소정의 한계 값은 소정의 하나의 경험 값일 수 있다.
상기의 예와 같이, 현재 손실 함수 값이 상기의 소정의 한계 값 이상이면, 현재 트레이닝 단계의 분류기의 예측 결과의 정확율이 기대와 다른 것을 의미하기 때문에, 소정의 트레이닝 종료 조건을 충족시킬 때까지, 상기의 손실 함수 값을 이용하여 주시 영역 분류기의 관련 파라미터를 조정한 후 파라미터 갱신 후의 주시 영역 분류기를 이용하여 단계 101과 단계 102를 반복적으로 실행하여, 상기의 소정의 3차원 공간에 대한 트레이닝이 완료된 주시 영역 분류기를 얻을 수 있다.
본 발명의 실시예에 있어서, 컴퓨터 시스템은 벡터 머신, 나이브 베이즈, 의사 결정 트리, 랜덤 포레스트, K- 평균(K-means) 등의 알고리즘을 채용하여 상기의 주시 영역 분류기를 트레이닝할 수 있다.
본 발명의 실시예에 있어서, 소정의 3차원 공간의 변화에 대해, 트레이닝 샘플 세트를 재확정하고, 대응하는 주시 영역 분류기를 트레이닝할 필요가 있다. 분류기의 트레이닝이 대량인 데이터를 필요로 하지 않고, 또한 트레이닝 속도가 상대적으로 빠르기 때문에, 서로 다른 3차원 공간 (예를 들면 서로 다른 차량 모델의 공간) 사이에서 상기의 주시 영역 검출 방법을 이전할 때의 시간 비용 및 기술적 어려움을 대폭으로 줄일 수 있다.
방식 2에 있어서, 주시 영역 검출을 실행할 필요가 있을 때, 소정의 스토리지 자원으로부터 상기의 소정의 3차원 공간에 대한 주시 영역 분류기를 직접 취득한다.
본 발명에 일 실시예에 있어서, 컴퓨터 시스템은 각 종류의 소정의 3차원 공간에 대한 트레이닝이 완료된 주시 영역 분류기를 당해 소정의 3차원 공간의 공간 식별자와 관련시켜 클라우드 서버 등의 지정된 스토리지 자원에 보존하여 소정의 주시 영역 분류기 세트를 형성한다. 상기의 지능형 운전 응용 시나리오에 있어서, 상기의 소정의 주시 영역 분류기 세트는 복수의 차량 모델과 주시 영역 분류기 사이의 대응 관계를 포함할 수 있는바, 표 2에 나타낸바와 같다.
차량 모델 | 분류기 |
M01 | 제1 분류기 |
M02 | 제2 분류기 |
M03 | 제3 분류기 |
… | … |
하나의 알려진 모델 (예를 들면 모델이 M01임)의 신차의 컴퓨터 시스템에 주시 영역 분류기 프로그램이 설치되어 있지 않을 경우, 당해 차량이 주시 영역 검출을 실행하기 전에, 자신의 모델 (예를 들면 M01임)에 따라 자동적으로 클라우드 서버로부터 대응하는 목표 주시 영역 분류기 프로그램 (예를 들면 상기의 제1 분류기에 대응하는 컴퓨터 프로그램임)을 다운로드함으로써, 주시 영역 검출을 신속히 실현할 수 있다.본 발명의 실시예에 있어서, 상기의 단계 12를 통해 얻은 시선 검출 결과는 적어도 상기의 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 포함하며, 얼굴 이미지 내의 인물의 머리 형태 정보를 더 포함할 수 있다.
본 발명의 실시예에 따르면, 도 4에 나타낸바와 같이, 단계 1211∼1212를 실행함으로써, 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정할 수 있다.
단계 1211에 있어서, 상기 얼굴 이미지 내의 눈의 위치를 검출한다.
본 발명의 실시예에 있어서, 상기의 눈의 위치는 얼굴 이미지 내의 눈의 실제 카메라 좌표계 내의 위치다. 상기의 실제의 카메라 좌표계는 컴퓨터 시스템이 상기의 카메라에 기반하여 확정한 공간 직각 좌표계다. 상기의 카메라는 상기의 소정의 3차원 공간에서 상기의 얼굴 이미지를 촬영하는 카메라이며, 카메라 C0으로 표기할 수 있다.
당해 실제의 카메라 좌표계의 Z축은 상기의 카메라의 광축이며, 카메라 렌즈의 광 중심은 당해 소정의 실제 카메라 좌표계의 원점이다. 실제의 카메라 좌표계의 수평축인 X 축 및 수직축인 Y 축은 상기의 카메라 렌즈면과 평행한다.
본 발명의 실시예에 있어서, 컴퓨터 시스템은 이하가 임의의 방식을 채용하여 얼굴 이미지 내의 눈의 위치를 검출할 수 있다. 즉 제1 방식에 있어서, 적어도 두개의 카메라를 이용하여 상기의 드라이버 등의 하나의 목표 대상에 대해 적어도 두개의 프레임의 얼굴 이미지를 동시에 수집하고, 카메라 교정법을 이용하여 상기의 얼굴 이미지 내의 눈의 위치를 취득하되, 상기의 적어도 두개의 카메라는 검출 대기 얼굴 이미지를 수집하는 카메라를 포함한다. 제2 방식에 있어서, 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하고, 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 눈의 위치를 검출한다.
본 발명에 일 실시예에 있어서, 컴퓨터 시스템은 하나의 카메라에 의해 촬영된 얼굴 이미지에 기반하여, 플렉서블 모델 방법 및 기하학적 방법과 같은 관련 기술에서의 머리 형태 추정 방법을 이용하여 상기의 드라이버의 머리 형태 정보를 확정하고, 머리 형태 정보에 기반하여 목표 대상의 눈의 소정의 실제의 카메라 좌표계 내의 3D 위치를 취득할 수 있으며, 여기서 상기의 소정의 실제의 카메라 좌표계는 상기의 카메라 C0에 기반하여 확정된 카메라 좌표계다.
상기의 눈의 위치를 확정하는 제2의 방식을 채용하여 단일 카메라 즉 단안 카메라에 의해 수집된 얼굴 이미지를 이용하여 눈의 3D 위치를 확정할 수 있으며, 주시 영역 검출을 위한 하드웨어 구성 비용을 절약할 수 있다.
단계 1212에 있어서, 상기 눈의 위치에 기반하여 상기 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정한다.
본 발명에 있어서, 상기의 단계 1211에서 얼굴 이미지로부터 검출된 눈의 위치는, 얼굴 이미지 내의 드라이버 등의 목표 대상의 한 쪽 눈의 위치를 포함할 가능성도 있고, 양 눈의 위치 (즉 드라이버의 왼쪽 눈과 오른쪽 눈의 위치)을 포함할 가능성도 있다.
이에 따라 본 발명의 실시예는 이하의 방식 1 또는 방식 2를 채용하여 상기의 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정할 수 있다.
방식 1에 있어서, 한 쪽 눈의 위치에 기반하여 상기의 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정한다. 일 실시예에 있어서, 단계 1211에서 확정된 상기 눈의 위치가 양 눈의 위치를 포함하면, 그 중이 임의의 하나의 눈의 위치에 기반하여 상기의 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정할 수 있다. 다른 일 실시예에 있어서, 단계 1211에서 확정된 눈의 위치가 한 쪽 눈의 위치를 포함하면, 당해 한 쪽 눈의 위치에 기반하여 상기의 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정할 수 있다.
방식 2에 있어서, 단계 1211에서 확정된 상기 눈의 위치가 양 눈의 위치를 포함하면, 상기 양 눈의 중간 위치를 상기 시선 시작점 정보로 확정하며, 여기서 상기의 양 눈의 중간 위치는 양 눈의 3D 좌표의 연결선의 중점 위치, 또는 양 눈의 3D 좌표의 연결선 상의 기타 위치일 수 있다.
본 발명의 실시예에 있어서, 상기의 방식 2를 채용하여 얼굴 이미지 내의 인물의 시선 시작점 정보를 확정하는 것은, 상기의 방식 1과 비교하면, 단안 검출 오류로 의한 시선 시작점 정보의 부정확함을 배제하고, 시선 검출 결과의 정밀도를 향상시키는 것에 유익하다.
본 발명의 실시예에 따르면, 도 5에 나타낸바와 같이, 단계 1221∼1222를 실행함으로써 얼굴 이미지 내의 인물의 시선 방향 정보를 검출할 수 있다.
단계 1221에 있어서, 얼굴 이미지 내의 인물의 머리 형태 정보를 검출한다.
상기와 같이, 컴퓨터 시스템은 하나의 카메라에 의해 촬영된 얼굴 이미지에 기반하여, 플렉서블 모델 방법 및 기하학적 방법과 같은 관련 기술의 머리 형태 추정 방법을 이용하여 상기의 드라이버의 머리 형태 정보를 확정할 수 있다.
상기의 플렉서블 모델 방법은, 이미지 평면 내의 머리 이미지의 얼굴 구성에, 활성 모양 모델(Active Shape Model, ASM), 활성 형태 모델(Active Appearance Model, AAM), 탄성 맵 매칭 모델(Elastic Graph Matching, EGM) 등과 같은 플렉서블 모델을 매칭하고, 특징 비교 또는 모델의 파라미터를 통해 머리 형태 추정의 최종 결과를 얻는 것을 의미한다.
기하학적 방법이란, 머리의 형상과 눈, 코, 입의 관련 위치 등과 같은 얼굴의 국소 특징 점의 정밀 형태 정보를 이용하여 머리 형태를 추정하는 것을 의미한다.
본 발명의 실시예에 따르면, 단안 카메라에 의해 수집된 단일 프레임 이미지에 기반하여 이미지 내의 인물의 머리 형태를 추정할 수 있다.
본 발명의 실시예에 따르면, 도 6에 나타낸바와 같이, 단계 1201∼1202를 실행함으로써, 얼굴 이미지 내의 인물의 머리 형태 정보를 검출할 수 있다 (단계 1221).
단계 1201에 있어서, 상기 얼굴 이미지 내의 복수의 얼굴 키 포인트를 검출한다.
본 발명에 일 실시예에 있어서, Robert 알고리즘, Sobel 알고리즘 등과 같은 에지 검출 알고리즘을 이용하여 얼굴 키 포인트 검출을 실행할 수도 있고, 액티브 윤곽 모델 (예를 들면 Snake 모델) 등과 같은 관련 모델을 이용하여 얼굴 키 포인트 검출을 실행할 수도 있다.
본 발명의 다른 일 실시예에 있어서, 얼굴 키 포인트 검출을 실행하기 위한 신경망을 이용하여 얼굴 키 포인트 검출을 실행할 수 있다. 또한, 타사 애플리케이션 (예를 들면 Dlib툴킷 등)을 이용하여 얼굴 키 포인트 검출을 실행할 수 있다.
상기의 방법을 채용하여 소정의 수량 (예를 들면 160개)의, 왼쪽 눈 모서리, 오른쪽 눈 모서리, 코 끝, 왼쪽 입 모서리, 오른쪽 입 모서리, 아랫턱 등의 얼굴 키 포인트의 위치 좌표를 포함하는 얼굴 키 포인트 위치를 검출할 수 있다. 얼굴 키 포인트 검출 방법에 따라, 얻어지는 얼굴 키 포인트 위치 좌표의 수량도 다를 가능성이 있는 것을 이해할 수 있다. 예를 들면 Dlib툴킷을 채용하여 68개의 얼굴 키 포인트 위치를 검출할 수 있다.
단계 1202에 있어서, 검출된 얼굴 키 포인트 및 소정의 평균 얼굴 모델을 이용하여 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 확정한다.
다시 도 5를 참조하면, 단계 1222에 있어서, 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 검출한다.
본 발명의 실시예에 있어서, 머리 형태 정보에 기반하여, 이미 트레이닝된 신경망을 이용하여 상기의 얼굴 이미지 내의 인물의 시선 방향 정보를 검출할 수 있다.
도 7을 참조하면, 상기 단계 1222는 단계 12221∼12223을 포함할 수 있다.
단계 12221에 있어서, 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지에 대해 정규화 처리를 실행하여 정규화된 얼굴 이미지를 얻는다.
실제로 조작에 있어서, 카메라 C0을 이용하여 서로 다른 시점에서 수집한 얼굴 이미지의 경우, 얼굴 영역 이미지의 이미지 전체의 위치가 무작위로 변하며, 이미지 내의 인물의 머리 형태도 무작위로 변한다. 상기의 신경망을 트레이닝할 때에, 카메라가 직접 수집한 얼굴 이미지를 샘플 이미지로 사용하면, 머리 형태 및 얼굴 영역 이미지 위치의 무작위성으로 인해 신경망의 트레이닝 어려움 및 트레이닝 시간이 증가할 수 밖에 없다.
본 발명의 실시예에 따르면, 상기의 시선 방향을 검출하기 위한 신경망을 트레이닝할 때, 트레이닝 어려움을 줄이기 위하여, 먼저 트레이닝 샘플 세트 중의 각 샘플 이미지 데이터에 대해 정규화 처리를 실행함으로써, 정규화 처리 후의 샘플 이미지 데이터가 가상 카메라가 머리를 향하여 촬영한 이미지 데이터와 동등해지도록 한 후, 정규화 처리 후의 샘플 이미지 데이터를 이용하여 당해 신경망을 트레이닝한다.
이에 따라 당해 신경망의 적용 단계에서는 시선 방향 정보의 검출 정확성을 확보하기 위하여, 먼저 얼굴 이미지에 대해 정규화 처리를 수행한 후, 대응하는 가상 카메라 좌표계에서의 정규화된 얼굴 이미지를 얻어 상기의 신경망에 입력하여 시선 방향 정보를 검출할 필요가 있다.
도 8a를 참조하면, 상기의 단계 12221은 단계 12-1∼12-3을 포함할 수 있다.
단계 12-1에 있어서, 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 머리 좌표계를 확정한다. 예를 들면 상기 머리 좌표계의 X 축은 왼쪽 눈과 오른쪽 눈의 좌표 연결선에 평행하고, 상기 머리 좌표계의 Y 축은 얼굴 평면에서 상기 X 축에 수직이며, 상기 머리 좌표계의 Z축은 상기 얼굴 평면에 수직이고, 시선 시작점은 상기 머리 좌표계의 원점이다.
본 발명의 실시예에 있어서, 컴퓨터 시스템이 상기의 얼굴 이미지에 기반하여 목표 대상의 머리 형태 정보를 검출하는 것은, 컴퓨터 시스템이 목표 대상의 3차원 머리 모델을 예측하는 것과 동등하다. 당해 3차원 머리 모델은 카메라 C0이 상기의 얼굴 이미지를 수집할 때의, 목표 대상의 머리 카메라 C0에 대한 형태 정보를 나타낼 수 있다. 이에 기반하여, 컴퓨터 시스템은 머리 형태 정보에 기반하여 목표 대상의 머리 좌표계를 확정할 수 있다.
당해 머리 좌표계는 공간 직각 좌표계로 나타낼 수 있다. 상기의 머리 좌표계의 X 축은 상기의 3차원 머리 모델 중의 양 눈의 3D 위치 좌표의 연결선에 평행한다. 양 눈의 3D 위치 좌표의 연결선의 중점 즉 상기의 시선의 시작점을 상기의 머리 좌표계의 원점으로 확정할 수 있다. 상기 머리 좌표계의 Y 축은 얼굴의 평면에서 상기 X 축에 수직이다. 상기 머리 좌표계의 Z축은 얼굴의 평면에 수직이다.
단계 12-2에 있어서, 상기 머리 좌표계에 기반하여 상기 얼굴 이미지에 대응하는 실제의 카메라 좌표계에 대해 회전 및 평행 이동을 수행하여 가상 카메라 좌표계를 얻는다. 예를 들면 상기 가상 카메라 좌표계의 Z축은 상기 머리 좌표계의 원점을 나타내고, 상기 가상 카메라 좌표계의 X 축과 상기 머리 좌표계의 X 축은 같은 평면에 있으며, 상기 가상 카메라 좌표계의 원점과 상기 머리 좌표계의 원점 사이는 상기 가상 카메라 좌표계의 Z축 방향에서 소정의 거리만큼 분리된다.
본 발명의 실시예에 있어서, 컴퓨터 시스템은 목표 대상의 머리 좌표계를 확정한 후, 상기의 머리 좌표계를 참조하여, 상기의 카메라에 대해 회전 또는 평행 이동의 조작을 실행하여 하나의 가상 카메라를 확정하고, 상기의 가상 카메라의 머리 좌표계 내의 위치에 기반하여 상기의 가상 카메라에 대응하는 가상 카메라 좌표계를 구축할 수 있다. 당해 가상 카메라 좌표계의 구축 방법은 상기의 소정의 실제의 카메라 좌표계의 구축 방법과 같은바, 즉 가상 카메라 좌표계의 Z축은 상기의 가상 카메라의 광축이며, 상기의 가상 카메라 좌표계의 X 축 및 Y 축은 당해 가상 카메라의 렌즈면과 평행하고, 가상 카메라 렌즈의 광 중심은 당해 가상 카메라 좌표계의 원점이다.
상기의 가상 카메라 좌표계와 머리 좌표계 사이의 위치 관계는 이하의 세 가지 조건을 충족시킨다.
조건 1은 상기 가상 카메라 좌표계의 Z축이 상기 머리 좌표계의 원점을 가리키는 것이다.
조건 2는 상기 가상 카메라 좌표계의 X 축이 상기 머리 좌표계의 X 축과 같은 평면에 위치하는 것이며, 여기서 가상 카메라 좌표계의 X 축과 상기 머리 좌표계의 X 축의 상대적인 위치 관계는 평행 관계를 포함하지만, 이에 한정되지 않는다.
조건 3은 상기 가상 카메라 좌표계의 원점이 상기 머리 좌표계의 원점과 상기 가상 카메라 좌표계의 Z축 방향에서 소정의 거리만큼 분리되는 것이다.
상기의 과정은 상기의 카메라 C0이 이하의 조작을 실행하여 하나의 가상 카메라를 확정하는 것과 같은바, 즉 상기 카메라 C0을 회전하여 Z축이 눈 이미지 내의 인물의 3차원 시선의 시작점을 가리키도록 하는 동시에, 카메라 C0의 X 축이 상기의 머리 좌표계의 X 축과 같은 평면에 있도록 하고, 회전후의 카메라 C0을 Z축에 따라 평행 이동하여 렌즈의 광 중심과 상기의 머리 좌표계의 원점 사이의 거리가 소정의 길이로 되도록 한다.
지금까지는 컴퓨터 시스템은 실제의 카메라 좌표계와 머리 좌표계 사이의 위치 관계 및 가상 카메라 좌표계와 상기의 머리 좌표계 사이의 위치 관계에 기반하여 실제의 카메라 좌표계와 상기의 가상 카메라 좌표계 사이의 위치 변환 관계를 확정할 수 있다.
본 발명에 있어서, 가상 카메라 좌표계가 얼굴 이미지 내의 인물의 머리 형태에 관련되어 있기 때문에, 서로 다른 얼굴 이미지는 서로 다른 가상 카메라 좌표계에 대응할 수 있는 것을 이해해야 한다.
단계 12-3에 있어서, 상기 실제의 카메라 좌표계와 상기 가상 카메라 좌표계 사이의 위치 변환 관계에 기반하여, 상기 얼굴 이미지에 대해 정규화 처리를 실행하여 상기 정규화된 얼굴 이미지를 얻는다.
본 발명의 실시예에 있어서, 컴퓨터 시스템은 상기의 실제의 카메라 좌표계와 가상 카메라 좌표계 사이의 위치 변환 관계에 이용하여 상기의 얼굴 이미지에 대해 회전, 아핀, 줌 변환 등의 처리를 실행하여, 상기의 가상 카메라 좌표계에서의 정규화된 얼굴 이미지를 얻을 수 있다.
도 8b는 예시적인 일 실시예에 따른 취득한 얼굴 이미지에 대해 정규화 처리를 수행하는 것을 나타내는 모식도이며, 여기서 이미지 P0은 실제의 차량용 카메라 C0이 드라이버에 대해 수집한 얼굴 이미지이며, 이미지 P1은 상기의 정규화 처리를 거친 후에 얻은 가상 카메라 좌표계에서의 정규화된 얼굴 이미지를 나타내는바, 즉 드라이버 머리를 향한 가상 카메라C1에 의해 수집된 드라이버 얼굴 이미지와 같다.
다시 도 7을 참조하면, 단계 12222에 있어서, 상기 정규화된 얼굴 이미지에 기반하여 시선 방향 검출을 실행하여 제1 검출 시선 방향을 얻는다. 예를 들면 상기의 제1 검출 시선 방향은 상기 가상 카메라 좌표계 내의 3차원 시선 방향 정보이며, 3차원 방향 벡터일 수 있다.
본 발명의 실시예에 있어서, 상기의 정규화 처리를 통한 정규화된 얼굴 이미지를 이미 트레이닝된 시선 방향을 검출하기 위한 신경망에 입력하고, 상기의 정규화된 얼굴 이미지 내의 인물의 3차원 시선 방향 정보를 검출할 수 있다. 상기의 시선 방향을 검출하기 위한 신경망은 컨볼루션 신경망(convolutional neural network, CNN) 등의 딥 신경망(deep neural network, DNN)을 포함할 수 있다.
단계 12223에 있어서, 상기 제1 검출 시선 방향에 대해 좌표 역변환 처리를 실행하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 얻는다.
후속의 주시 영역 검출 단계에 있어서, 주시 영역 분류기에 실제의 카메라 좌표계 내의 시선 특징 벡터를 입력할 필요가 있다. 따라서, 본 발명에 있어서, 컴퓨터 시스템이 가상 카메라 좌표계 내의 시선 방향 정보인 상기의 제1 검출 시선 방향을 검출한 후, 상기 제1 검출 시선 방향에 대해 가상 카메라 좌표계로부터 상기의 실제의 카메라 좌표계까지의 좌표 역변환 처리를 실행하여, 상기의 실제의 카메라 좌표계 내의 시선 방향 정보를 얻을 필요가 있다.
다시 도 1을 참조하면, 상기의 단계 12는 얼굴 이미지 내의 인물의 시선 특징 벡터를 확정하는 과정에 상당하고, 당해 시선 특징 벡터는 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 포함한다.
예를 들면 지능형 운전의 실제 적용에 있어서, 상기의 얼굴 이미지에 대해 시선 특징 벡터를 추출하는 과정은 차량 모델의 변경에 따라 변하지 않는다. 당해 단계에서 사용하는 인공 신경망(얼굴 키 포인트를 검출하기 위한 신경망, 시선 방향을 검출하기 위한 신경망 등)은 각 차량 모델에 적용할 수 있기에, 양호한 기동성을 가진다.
상기와 같이, 본 발명에 일 실시예에 따르면, 단계 13에 있어서, 단계 12에서 확정된 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 이미 소정의 3차원 공간에 대한 트레이닝이 완료된 주시 영역 분류기에 입력하여, 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출할 수 있다.
본 발명의 실시예에 있어서, 상기의 단계 13은 상기 목표 주시 영역의 종류에 기반하여 목표 주시 영역 정보를 확정하고, 상기 목표 주시 영역 정보를 출력하는 것을 포함할 수 있다.
예를 들면 분류기는 도 9a에 나타낸바와 같이 목표 주시 영역의 종류를 출력할 수 있고, 또한 도 9b에 나타낸바와 같이 목표 주시 영역의 명칭을 직접 출력할 수 있다.
본 발명의 다른 일 실시예에 있어서, 상기의 주시 영역 검출 방법은 상기의 단계 11 전에, 시선 방향을 검출하기 위한 신경망을 트레이닝하는 것을 더 포함할 수 있다. 당해 단계는 3차원 시선 방향 추정 모델의 트레이닝 과정에 대응된다. 당해 단계는 도 2에 나타낸 실시간으로 주시 영역 분류기를 트레이닝하는 과정과 서로 다른 컴퓨터 시스템에서 실행될 수 있음을 설명할 필요가 있다.
도 10은 본 발명의 예시적인 실시예에 따른 3차원 시선 방향을 검출하기 위한 신경망을 트레이닝하는 방법의 플로우 챠트다. 당해 방법은 단계 1001∼1005를 포함할 수 있다.
단계 1001에 있어서, 적어도 하나의 얼굴 샘플을 포함하는 원본 샘플 세트를 확정하되, 각 상기 얼굴 샘플은 얼굴 이미지 샘플 및 시선 방향 라벨링 정보를 포함한다.
본 발명의 실시예에 있어서, 감독된 학습 방법을 채용하여 상기의 신경망을 트레이닝할 수 있다. 이에 따라 상기의 신경망을 트레이닝하기 위한 샘플 세트 중의 각각의 샘플은, 예측하기 위한 입력 정보 즉 얼굴 이미지 샘플 및 당해 입력 정보에 해당하는 실제 값 즉 실제의 카메라 좌표계 내의 실제로 검출된 시선 방향 정보를 포함할 수 있다. 본 발명의 실시예에 있어서, 상기의 실제로 검출된 시선 방향 정보를 시선 방향 라벨링 정보라고도 부른다.
단계 1002에 있어서, 얼굴 키 포인트 및 평균 얼굴 모델에 기반하여 각각의 상기 얼굴 이미지 샘플에 대응하는 머리 형태 정보를 확정한다.
단계 1003에 있어서, 상기 머리 형태 정보 및 상기 실제의 카메라 좌표계에 기반하여, 각각의 상기 얼굴 이미지 샘플에 대응하는 정규화된 얼굴 이미지 샘플 및 상기 시선 방향 라벨링 정보의 상기 가상 좌표계 내의 가상 시선 방향 라벨링 정보를 확정한다.
상기의 단계 1002 및 단계 1003의 실시 과정은 각각 상기의 단계 1202 및 단계 12-1∼12-3과 같은바, 여기에서는 반복적으로 설명하지 않는다. 동시에, 컴퓨터 시스템은 실제의 카메라 좌표계로부터 가상 카메라 좌표계까지의 위치 변환 관계에 기반하여, 상기의 시선 방향 라벨링 정보를 가상 시선 라벨링 정보로 변환한다.
지금까지는 가상 카메라 좌표계 내의 샘플 세트를 얻었다. 계속하여 당해 샘플 세트를 이용하여 상기 3차원 시선 방향을 검출하기 위한 신경망 트레이닝 요건을 충족시킬 때까지, 이하의 단계를 반복하여 트레이닝하는바, 이러한 단계는 각 상기 정규화된 얼굴 이미지 샘플을 트레이닝 대기의 3차원 시선 방향 검출 신경망에 입력하고, 3차원 시선 방향 예측 정보를 얻는 단계 1004; 및 상기 3차원 시선 방향 예측 정보와 상기 가상 시선 방향 라벨링 정보 사이의 편차에 기반하여, 상기 신경망에 대해 파라미터 조정을 실행하여 시선 방향 정보를 검출하기 위한 신경망을 얻는 단계 1005를 포함한다.
본 발명의 실시예에 있어서, 가상 카메라 좌표계 내서 정규화 처리 후의 정규화된 얼굴 이미지를 트레이닝 샘플 데이터로 채용함으로써, 머리 형태 변화로 의한 신경망의 트레이닝 어려움을 줄이고, 시선 방향을 검출하기 위한 신경망 트레이닝 효율을 향상시킬 수 있다.
일 예에 있어서, 드라이버의 주시 영역을 인식한 후, 당해 주시 영역에 기반하여 한층 더 조작을 실행할 수 있다. 예를 들면 주시 영역 종류 검출 결과에 기반하여, 얼굴 이미지에 대응하는 인물의 주의력 모니터링 결과를 확정할 수 있다. 예를 들면 상기의 주시 영역 종류 검출 결과는 소정의 시간대 내의 주시 영역의 종류일 수 있다. 예시적으로, 당해 주시 영역 종류 검출 결과는 "소정의 시간대에서 당해 드라이버의 주시 영역은 항상 영역 2입니다”일 수 있다. 그러면, 당해 영역 2가 오른쪽 전면 유리이면, 당해 드라이버가 운전에 상대적으로 전념하고 있는 것을 의미한다. 당해 영역 2가 부조종사 앞의 글로브 박스 영역이면, 당해 드라이버가 정신을 팔고 있는 가능성이 크며, 주의력이 집중되지 않은 가능성이 높은 것을 의미한다.
주의력 모니터링 결과를 검출한 후, 상기 주의력 모니터링 결과를 출력할 수 있는바, 예를 들면 차량 내에 있는 표시 영역에 "운전에 잘 전념하고 있습니다”를 표시할 수 있다. 또는 상기 주의력 모니터링 결과에 기반하여 주의 산만 프롬프트 정보를 출력할 수 있는바, 표시 스크린에 신속하게 표시하는 방식 또는 음성 프롬프트 등의 방식을 통해 "운전 안전을 확보하기 위하여 운전에 주의력을 집중해 주세요”라고 드라이버에 프롬프트할 수 있다. 당연히, 구체적으로 정보를 출력 때, 주의력 모니터링 결과 및 주의 산만 프롬프트 정보 중의 적어도 하나의 정보를 출력할 수 있다.
주시 영역 종류의 검출에 기반하여 인간의 주의력 모니터링 결과를 확정하거나, 주의 산만 프롬프트 정보를 출력함으로써, 드라이버의 주의력 모니터링에 중요의 도움이 되며, 드라이버가 주의력을 집중하지 않고 있는 상황을 효과적인 검출하고, 신속히 프롬프트하여, 사고의 리스크를 줄이고, 운전의 안전을 확보할 수 있다.
상기의 예의 설명에 있어서, 지능형 운전 응용 시나리오에 있어서 드라이버의 주의력을 모니터링하는 예를 설명하였다. 이외에도 주시 영역의 검출은 기타의 많은 용도가 있다.
예를 들면 주시 영역 검출에 기반한 차량과 기계의 대화형 제어를 실행할 수 있다. 차량 내에 멀티미디어 플레이어 등의 일부의 전자 디바이스가 탑재되어 있을 수 있다. 차량 내의 사람의 주시 영역을 검출함으로써, 주시 영역의 검출 결과에 기반하여, 당해 멀티미디어 플레이어가 재생 기능을 기동하도록 자동적으로 제어할 수 있다.
예시적으로, 차량 내에 배치한 카메라를 이용하여 차량 내의 사람(운전자 또는 승객 등)의 얼굴 이미지를 촬영하여 얻고, 사전에 트레이닝된 신경망을 이용하여 주시 영역 종류 검출 결과를 검출한다. 예를 들면 당해 검출 결과는 시간대 T에서 당해 차량 내의 사람의 주시 영역 1이 항상 차량 내에 있은 멀티미디어 플레이어 상의 "주시 기동”의 옵션이 위치한 영역인 것일 수 있다. 상기의 검출 결과에 기반하여 당해 차량 내의 사람이 당해 멀티미디어 플레이어를 기동하려고 하고 있는 것으로 확정할 수 있기 때문에, 해당하는 제어 명령을 출력하여 당해 멀티미디어 플레이어가 재생을 실행하기 시작하도록 제어할 수 있다.
차량에 관련되는 애플리케이션 이외에, 게임 제어, 스마트 홈 디바이스 제어, 광고 푸쉬 등의 복수의 종류 응용 시나리오를 더 포함할 수 있다. 스마트 홈 제어의 예를 들면, 제어자의 얼굴 이미지를 수집하고, 사전에 트레이닝된 신경망을 통하여 주시 영역 종류 검출 결과를 검출할 수 있다. 예를 들면 당해 검출 결과는 시간대T에서 당해 제어자의 주시 영역 1이 항상 스마트 에어컨상의 "주시 기동”의 옵션이 위치한 영역인 것일 수 있다. 상기의 검출 결과에 기반하여, 당해 제어자가 스마트 에어컨을 기동하려고 하고 있는 것으로 확정할 수 있기 때문에, 해당하는 제어 명령을 출력하여 당해 에어컨을 기동하도록 제어할 수 있다.
설명의 편의상, 전술한 각 방법의 실시예를 모두 일련의 동작의 조합으로 설명하였다. 당업자는 본 발명은 설명된 동작의 순서에 한정되지 않음을 이해해야 한다. 본 발명에 따르면, 몇몇의 단계는 기타 순서를 채용하거나, 또는 동시에 실행될 수 있다.
본 발명은 전술한 방법의 실시예에 대응하는 장치 및 전자 디바이스의 실시예를 더 제공할 수 있다.
도 11은 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치(1100)의 블록 도이다. 주시 영역 검출 장치(1100)는 이미지 취득 모듈(21); 시선 검출 모듈(22); 및 주시 영역 검출 모듈(23)을 구비할 수 있다.
이미지 취득 모듈(21)은 소정의 3차원 공간에서 수집된 얼굴 이미지를 취득한다. 시선 검출 모듈(22)은 상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는다. 본 발명에 일 실시예에 있어서, 상기 시선 검출 결과는 상기 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 포함할 수 있다. 주시 영역 검출 모듈(23)은 상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출한다. 상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다.
도 12를 참조하면, 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 시선 검출 모듈(22)은 상기 얼굴 이미지 내의 눈의 위치를 검출하기 위한 눈 위치 검출 서브 모듈(221); 및 상기 눈의 위치가 양 눈의 위치를 포함할 경우, 상기 양 눈의 중간 위치를 상기 시선 시작점 정보로 확정하기 위한 제1 시작점 정보 확정 서브 모듈(222)을 구비할 수 있다.
도 13을 참조하면, 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 다른 하나의 시선 검출 모듈(22)은 상기 얼굴 이미지 내의 눈의 위치를 검출하기 위한 눈 위치 검출 서브 모듈(221); 및 상기 눈의 위치가 양 눈의 위치를 포함할 경우, 상기 양 눈 중의 임의의 하나의 눈의 위치를 상기 시선 시작점 정보로 확정하거나, 또는 상기 눈의 위치가 한 쪽 눈의 위치를 포함할 경우, 상기 한 쪽 눈의 위치를 상기 시선 시작점 정보로 확정하기 위한 제2 시작점 정보 확정 서브 모듈(223)을 구비할 수 있다.
도 14를 참조하면, 본 발명의 예시적인 실시예에 따른 도 12 및 도 13 중의 눈 위치 검출 서브 모듈(221)은 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하기 위한 형태 검출 유닛(2211); 및 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 눈의 위치를 확정하기 위한 위치 확정 유닛(2212)을 구비할 수 있다.
도 15을 참조하면, 본 발명의 예시적인 실시예에 따른 주시 영역 검출 장치의 다른 하나의 시선 검출 모듈(22)은 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하기 위한 형태 검출 서브 모듈(22-1) 및 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하기 위한 방향 검출 서브 모듈(22-2)을 구비할 수 있다.
도 16을 참조하면, 본 발명의 예시적인 실시예에 따른 도 15안의 형태 검출 서브 모듈(22-1)은 상기 얼굴 이미지 내의 복수의 얼굴 키 포인트를 검출하기 위한 키 포인트 검출 유닛(22-11); 및 상기 얼굴 키 포인트 및 소정의 평균 얼굴 모델에 기반하여 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 확정하기 위한 형태 확정 유닛(22-12)을 구비할 수 있다.
도 17을 참조하면, 본 발명의 예시적인 실시예에 따른 도 15 중의 방향 검출 서브 모듈(22-2)은 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지에 대해 정규화 처리를 실행하여 정규화된 얼굴 이미지를 얻기 위한 화상 처리 유닛(22-21); 상기 정규화된 얼굴 이미지에 기반하여 시선 방향 검출을 실행하여 제1 검출 시선 방향을 얻기 위한 제1 방향 검출 유닛(22-22); 및 상기 제1 검출 시선 방향에 대해 좌표 역변환 처리를 실행하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 얻기 위한 방향 확정 유닛(22-23)을 구비할 수 있다.
도 18을 참조하면, 본 발명의 예시적인 실시예에 따른 도 17안의 화상 처리 유닛(22-21)은 상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 머리 좌표계를 확정하기 위한 머리 좌표 확정 서브 유닛(22-211); 상기 머리 좌표계에 기반하여 상기 얼굴 이미지에 대응하는 실제의 카메라 좌표계에 대해 회전 및 평행 이동을 수행하여 가상 카메라 좌표계를 얻기 위한 좌표 변환 서브 유닛(22-212); 및 상기 실제의 카메라 좌표계와 상기 가상 카메라 좌표계 사이의 위치 변환 관계에 기반하여, 상기 얼굴 이미지에 대해 정규화 처리를 실행하여 상기 정규화된 얼굴 이미지를 얻기 위한 화상 처리 서브 유닛(22-213)을 구비할 수 있다.
본 발명의 상기의 임의의 장치의 실시예에 있어서, 상기 주시 영역 분류기는 상기 소정의 3차원 공간에 대한 트레이닝 샘플 세트를 이용하여 사전에 트레이닝될 수 있다. 상기 트레이닝 샘플 세트는 복수의 시선 특징 샘플을 포함할 수 있으며, 각 상기 시선 특징 샘플은 시선 시작점 정보, 시선 방향 정보 및 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보를 포함하며, 라벨링한 주시 영역의 종류는 상기 소정의 3차원 공간을 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속한다.
도 19은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치 (1900)의 블록 도이다. 도 11에 나타낸 주시 영역 검출 장치(1100)와 비교하면, 주시 영역 검출 장치 (1900)는 분류기 트레이닝 모듈(20)을 더 구비할 수 있다.
분류기 트레이닝 모듈(20)은 적어도 하나의 상기 시선 특징 샘플의 상기 시선 시작점 정보 및 상기 시선 방향 정보를 트레이닝 대기의 주시 영역 분류기에 입력하여, 당해 시선 특징 샘플에 대응하는 주시 영역 종류 예측 정보를 얻기 위한 종류 예측 서브 모듈(201); 및 상기 주시 영역 종류 예측 정보와 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보 사이의 편차에 기반하여, 상기 주시 영역 분류기에 대해 파라미터 조정을 실행하여 상기 주시 영역 분류기를 트레이닝하기 위한 파라미터 조정 서브 모듈(202)을 더 구비할 수 있다.
도 20은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치 (2000)의 블록 도이다. 도 11에 나타낸 주시 영역 검출 장치(1100)와 비교하면, 주시 영역 검출 장치 (2000)는 분류기 취득 모듈(203)을 더 구비할 수 있다.
분류기 취득 모듈(203)은 상기 소정의 3차원 공간의 공간 식별자에 기반하여 소정의 주시 영역 분류기 세트 중에서 상기 공간 식별자에 대응하는 주시 영역 분류기를 취득할 수 있다. 상기 소정의 주시 영역 분류기 세트는 서로 다른 3차원 공간의 공간 식별자에 각각 대응하는 주시 영역 분류기를 포함할 수 있다.
본 발명의 상기의 임의의 장치의 실시예에 있어서, 상기 소정의 3차원 공간은 차량 공간을 포함할 수 있다. 이에 따라 상기 얼굴 이미지는 상기 차량 공간 내의 운전 영역에 대해 수집된 이미지에 기반하여 확정될 수 있다. 상기 소정의 3차원 공간을 분할하여 얻은 복수 종류의 정의된 주시 영역은, 왼쪽 전면 유리 영역, 오른쪽 전면 유리 영역, 계기판 영역, 내부 백미러 영역, 중앙 콘솔 영역, 왼쪽 백미러 영역, 오른쪽 백미러 영역, 차광판 영역, 변속 레버 영역, 스티어링 휠 아래 영역, 부조종사 영역, 부조종사 앞의 글로브 박스 영역 중의 적어도 둘을 포함할 수 있다.
도 21은 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치(2100)의 블록 도이다. 도 11에 나타낸 주시 영역 검출 장치(1100)와 비교하면, 주시 영역 검출 장치(2100)는 주시 영역 검출 모듈(23)이 얻은 주시 영역 종류 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 인물의 주의력 모니터링 결과를 확정하기 위한 주의력 모니터링 모듈(24); 및 상기 주의력 모니터링 결과를 출력해 및/또는 상기 주의력 모니터링 결과에 기반하여 주의 산만 프롬프트 정보를 출력하기 위한 모니터링 결과 출력 모듈(25)을 더 구비할 수 있다.
도 22는 본 발명의 예시적인 실시예에 따른 또 하나의 주시 영역 검출 장치(2200)의 블록 도이다. 도 11에 나타낸 주시 영역 검출 장치(1100)와 비교하면, 주시 영역 검출 장치(2200)는 주시 영역 검출 모듈(23)이 얻은 주시 영역 종류 검출 결과에 대응하는 제어 명령을 확정하기 위한 제어 명령 확정 모듈(26); 및 전자 디바이스가 상기 제어 명령에 해당하는 조작을 실행하도록 제어하기 위한 조작 제어 모듈(27)을 더 구비할 수 있다.
장치의 실시예의 경우, 기본적으로 방법의 실시예에 대응되기 때문에, 관련된 부분은 방법의 실시예의 부분 설명을 참조할 수 있다. 상기의 장치의 실시예는 단지 모식적인 것이다. 여기서, 분리된 부품으로 설명된 유닛은 물리적으로 분리되어 있는 경우와 물리적으로 분리되지 않은 경우가 있으며, 유닛으로 표시되는 부품은 물리적 유닛일 경우와 그렇지 않을 경우가 있다. 하나의 장소에 배치되거나, 복수의 네트워크 유닛에 분산 배치될 수 있다. 당업자는 발명적인 노력을 가하지 않고, 실제의 필요에 의해 그 중의 일부 또는 모든 모듈을 선택하여 본 발명의 실시예를 실현할 수 있다.
본 발명은 상기의 주시 영역 검출 방법에 대응하는 전자 디바이스를 더 제공할 수 있다. 도 23은 본 발명의 예시적인 일 실시예에 따른 전자 디바이스(2300)의 블록 도이다. 예를 들면 전자 디바이스(2300)는 프로세서; 내부 버스; 네트워크 인터페이스; 내부 메모리; 및 불휘발성 메모리를 구비할 수 있다. 프로세서는 불휘발성 메모리로부터 대응하는 컴퓨터 프로그램을 내부 메모리에 로드하여 실행시킴으로써, 상기의 주시 영역 검출 방법을 실현하기 위한 주시 영역 검출 장치를 논리적으로 형성할 수 있다.
당업자는 본 발명은 방법, 장치, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 이해해야 한다. 따라서 본 발명은 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예, 또는 소프트웨어와 하드웨어를 조합시킨 실시예의 형태를 채용할 수 있다.
본 발명은 컴퓨터 판독 가능 기록 매체를 더 제공할 수 있는바, 당해 기록 매체에는 컴퓨터 프로그램이 기억되어 있으며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 당해 프로세서로 하여금 상기의 임의의 방법 실시예의 주시 영역 검출 방법을 실현하도록 한다.
본 발명의 주제 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 동등물을 포함하는 컴퓨터 하드웨어, 또는 이들의 하나 또는 복수의 조합을 통해 실현될 수 있다. 본 발명의 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있는바, 즉 유형의 비일시적 프로그램 캐리어 상에 부호화되어 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수작업으로 생성하는 전파 신호 상에 부호화될 수 있는바, 예를 들면 기계가 생성하는 전기 신호, 광 신호, 또는 전자 신호 상에 부호화될 수 있다. 정보를 부호화하여 적절한 수신기 장치에 전송하며, 데이터 처리 장치에 의해 실행되도록 하기 위하여, 당해 신호가 생성된다. 컴퓨터 기억 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스, 또는 이들의 하나 또는 복수의 조합일 수 있다.
본 발명 중의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(전용 집적 회로) 등의 전용 논리 회로에 의해 실행될 수 있고, 또한 장치도 전용 논리 회로를 통해 실현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서, 또는 임의의 기타 종류의 중앙 처리 유닛을 포함한다. 일반적으로 중앙 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중앙 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 포함한다. 일반적으로 컴퓨터는 자기 디스크, 자기 광학 디스크, 또는 광디스크 등과 같은, 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 포함하거나, 또는 조작 가능하게 당해 대용량 기억 디바이스와 결합되어 데이터를 수신하거나, 데이터를 전송하거나, 또는 양자를 모두 포함한다. 하지만, 컴퓨터는 반드시 이러한 디바이스를 포함하는 것은 아니다. 한편, 컴퓨터는 다른 일 디바이스에 내장될 수 있는바, 예를 들면 휴대 전화, 개인용 디지털 처리 장치(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 범용 직렬 버스(USB), 플래시 드라이브 등의 휴대용 기억 디바이스에 내장될 수 있으며, 이러한 디바이스는 몇몇의 예에 지나지 않는다.
컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 여러가지 형식의 불휘발성 메모리, 매개 및 메모리 디바이스를 포함하는바, 예를 들면 반도체 메모리 디바이스 (예를 들면 소거 가능 프로그램 가능 판독 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 전기적 소거 가능 프로그램 가능 판독 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM) 및 플래시 메모리), 자기 디스크 (예를 들면 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크, 광학 디스크 판독 전용 메모리(Compact Disc Read Only Memory, CD-ROM), 디지털 다용도광디스크(Digital Versatile Disc, DVD) 등을 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.
본 발명은 다양한 구체적인 실시 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 이는 주로 본 발명의 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수 실시예 중의 특정 특징은 단일 실시예에 결합되어 실시될 수도 있다. 반면에, 단일 실시예 중의 각 특징은 복수의 실시예에 나뉘어 실시되거나 또는 임의의 적절한 서브 조합에 의해 실시될 수도 있다. 한편, 특징이 상기와 같이 특정 조합으로 역할을 발휘하고, 또한 처음부터 이렇게 보호된다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.
마찬가지로, 도면에서는 특정 순서에 따라 조작을 나타냈지만, 이는 이러한 조작을 나타낸 특정 순서에 따라 실행하거나 또는 순차적으로 실행하거나, 또는 예시된 모든 조작을 실행하여야만 기대하는 결과가 실현될 수 있음을 요구하는 것으로 이해해서는 안된다. 한편, 상기의 실시예 중의 각종의 시스템 모듈과 컴포넌트의 분리는 모든 실시예에서 반드시 모두 이렇게 분리되어야 한다고 이해해서는 안되며, 또한 서술한 프로그램 컴포넌트와 시스템은 일반적으로 같이 단일 소프트웨어 제품에 통합되거나, 또는 복수의 소프트웨어 제품에 패키징될 수 있음을 이해해야 한다.
상기는 본 발명의 몇몇의 실시예에 불과할 뿐, 본 발명을 한정하려는 것이 아니다. 본 발명의 정신과 원칙의 범위 내에서 행하여진 어떠한 수정, 동등의 치환, 개량 등은 모두 본 발명의 범위에 포함되어야 한다.
Claims (34)
- 주시 영역 검출 방법으로서,
소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하는 것;
상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는 것; 및
상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출하는 것을 포함하되,
상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속하는
것을 특징으로 하는 주시 영역 검출 방법. - 제1항에 있어서,
상기 시선 검출 결과는 상기 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제2항에 있어서,
상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는 것은,
상기 얼굴 이미지 내의 눈의 위치를 검출하는 것; 및
상기 눈의 위치가 양 눈의 위치를 포함할 경우, 상기 양 눈의 중간 위치를 상기 시선 시작점 정보로 확정하는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제2항에 있어서,
상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는 것은,
상기 얼굴 이미지 내의 눈의 위치를 검출하는 것; 및
상기 눈의 위치가 양 눈의 위치를 포함할 경우, 상기 양 눈 중의 임의의 하나의 눈의 위치를 상기 시선 시작점 정보로 확정하거나, 또는 상기 눈의 위치가 한 쪽 눈의 위치를 포함할 경우, 상기 한 쪽 눈의 위치를 상기 시선 시작점 정보로 확정하는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제3항 또는 제4항에 있어서,
상기 얼굴 이미지 내의 눈의 위치를 검출하는 것은,
상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하는 것; 및
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 눈의 위치를 확정하는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제2항에 있어서,
상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻는 것은,
상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하는 것; 및
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제5항 또는 제6항에 있어서,
상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하는 것은,
상기 얼굴 이미지 내의 복수의 얼굴 키 포인트를 검출하는 것; 및
상기 얼굴 키 포인트 및 소정의 평균 얼굴 모델에 기반하여 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 확정하는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제6항 또는 제7항에 있어서,
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하는 것은,
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지에 대해 정규화 처리를 수행하여 정규화된 얼굴 이미지를 얻는 것;
상기 정규화된 얼굴 이미지에 기반하여 시선 방향 검출을 실행하여 제1 검출 시선 방향을 얻는 것; 및
상기 제1 검출 시선 방향에 대해 좌표 역변환 처리를 수행하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 얻는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제8항에 있어서,
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지에 대해 정규화 처리를 수행하여 정규화된 얼굴 이미지를 얻는 것은,
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 머리 좌표계를 확정하는 것;
상기 머리 좌표계에 기반하여 상기 얼굴 이미지에 대응하는 실제의 카메라 좌표계에 대해 회전 및 평행 이동을 실행하여 가상 카메라 좌표계를 얻는 것; 및
상기 실제의 카메라 좌표계와 상기 가상 카메라 좌표계 사이의 위치 변환 관계에 기반하여, 상기 얼굴 이미지에 대해 정규화 처리를 실행하여 상기 정규화된 얼굴 이미지를 얻는 것을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제1항 내지 제9항 중 어느 한 항에 있어서,
상기 주시 영역 분류기는 상기 소정의 3차원 공간에 대한 트레이닝 샘플 세트를 이용하여 사전에 트레이닝된 것이며, 여기서, 상기 트레이닝 샘플 세트는 복수의 시선 특징 샘플을 포함하고, 각 상기 시선 특징 샘플은 시선 시작점 정보, 시선 방향 정보 및 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보를 포함하며, 라벨링한 주시 영역의 종류는 상기 소정의 3차원 공간을 분할하여 얻은 상기 복수 종류의 정의된 주시 영역 중의 하나에 속하는
것을 특징으로 하는 주시 영역 검출 방법. - 제10항에 있어서,
상기 소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하기 전에,
적어도 하나의 상기 시선 특징 샘플의 상기 시선 시작점 정보 및 상기 시선 방향 정보를 트레이닝 대기의 주시 영역 분류기에 입력하여, 당해 시선 특징 샘플에 대응하는 주시 영역 종류 예측 정보를 얻는 것; 및
상기 주시 영역 종류 예측 정보와 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보 사이의 편차에 기반하여, 상기 주시 영역 분류기에 대해 파라미터 조정을 실행하여 상기 주시 영역 분류기를 트레이닝하는 것을 더 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제10항에 있어서,
상기 소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하기 전에,
상기 소정의 3차원 공간의 공간 식별자에 기반하여 소정의 주시 영역 분류기 세트 중에서 상기 공간 식별자에 대응하는 주시 영역 분류기를 취득하는 것을 더 포함하되,
상기 소정의 주시 영역 분류기 세트는 서로 다른 3차원 공간의 공간 식별자에 각각 대응하는 주시 영역 분류기를 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제1항 내지 제12항 중 어느 한 항에 있어서,
상기 소정의 3차원 공간은 차량 공간을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제13항에 있어서,
상기 얼굴 이미지는 상기 차량 공간 내의 운전 영역에 대해 수집된 이미지에 기반하여 확정된 것이며,
상기 복수 종류의 정의된 주시 영역은 왼쪽 전면 유리 영역, 오른쪽 전면 유리 영역, 계기판 영역, 내부 백미러 영역, 중앙 콘솔 영역, 왼쪽 백미러 영역, 오른쪽 백미러 영역, 차광판 영역, 변속 레버 영역, 스티어링 휠 아래 영역, 부조종사 영역, 부조종사 앞의 글로브 박스 영역 중의 적어도 둘을 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 제1항 내지 제14항 중 어느 한 항에 있어서,
주시 영역 종류 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 인물의 주의력 모니터링 결과를 확정하는 것; 및
상기 주의력 모니터링 결과를 출력하고 및/또는 상기 주의력 모니터링 결과에 기반하여 주의 산만 프롬프트 정보를 출력하는 것을 더 포함하는
것을 특징으로 하는 제에 기재된 주시 영역 검출 방법. - 제1항 내지 제15항 중 어느 한 항에 있어서,
주시 영역 종류 검출 결과에 대응하는 제어 명령을 확정하는 것; 및
전자 디바이스가 상기 제어 명령에 해당하는 조작을 실행하도록 제어하는 것을 더 포함하는
것을 특징으로 하는 주시 영역 검출 방법. - 주시 영역 검출 장치로서,
소정의 3차원 공간에서 수집된 얼굴 이미지를 취득하기 위한 이미지 취득 모듈;
상기 얼굴 이미지에 기반하여 시선 검출을 실행하여 시선 검출 결과를 얻기 위한 시선 검출 모듈; 및
상기 소정의 3차원 공간에 대해 사전에 트레이닝한 주시 영역 분류기를 이용하여, 상기 시선 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 목표 주시 영역의 종류를 검출하기 위한 주시 영역 검출 모듈을 구비하되,
상기 목표 주시 영역은 상기 소정의 3차원 공간을 사전에 분할하여 얻은 복수 종류의 정의된 주시 영역 중의 하나에 속하는
것을 특징으로 하는 주시 영역 검출 장치. - 제17항에 있어서,
상기 시선 검출 결과는 상기 얼굴 이미지 내의 인물의 시선 시작점 정보 및 시선 방향 정보를 포함하는
것을 특징으로 하는 주시 영역 검출 장치. - 제18항에 있어서,
상기 시선 검출 모듈은,
상기 얼굴 이미지 내의 눈의 위치를 검출하기 위한 눈 위치 검출 서브 모듈; 및
상기 눈의 위치가 양 눈의 위치를 포함할 경우, 상기 양 눈의 중간 위치를 상기 시선 시작점 정보로 확정하기 위한 제1 시작점 정보 확정 서브 모듈을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제18항에 있어서,
상기 시선 검출 모듈은,
상기 얼굴 이미지 내의 눈의 위치를 검출하기 위한 눈 위치 검출 서브 모듈; 및
상기 눈의 위치가 양 눈의 위치를 포함할 경우, 상기 양 눈 중의 임의의 하나의 눈의 위치를 상기 시선 시작점 정보로 확정하거나, 또는 상기 눈의 위치가 한 쪽 눈의 위치를 포함할 경우, 상기 한 쪽 눈의 위치를 상기 시선 시작점 정보로 확정하기 위한 제2 시작점 정보 확정 서브 모듈을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제19항 또는 제20항에 있어서,
상기 눈 위치 검출 서브 모듈은,
상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하기 위한 자태 검출 유닛; 및
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 눈의 위치를 확정하기 위한 위치 확정 유닛을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제18항에 있어서,
상기 시선 검출 모듈은,
상기 얼굴 이미지 내의 인물의 머리 형태 정보를 검출하기 위한 자태 검출 서브 모듈; 및
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 검출하기 위한 방향 검출 서브 모듈을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제22항에 있어서,
상기 자태 검출 서브 모듈은,
상기 얼굴 이미지 내의 복수의 얼굴 키 포인트를 검출하기 위한 키 포인트 검출 유닛; 및
상기 얼굴 키 포인트 및 소정의 평균 얼굴 모델에 기반하여 상기 얼굴 이미지 내의 인물의 머리 형태 정보를 확정하기 위한 자태 확정 유닛을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제22항 또는 제23항에 있어서,
상기 방향 검출 서브 모듈은,
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지에 대해 정규화 처리를 수행하여 정규화된 얼굴 이미지를 얻기 위한 화상 처리 유닛;
상기 정규화된 얼굴 이미지에 기반하여 시선 방향 검출을 실행하여 제1 검출 시선 방향을 얻기 위한 제1 방향 검출 유닛; 및
상기 제1 검출 시선 방향에 대해 좌표 역변환 처리를 수행하여 상기 얼굴 이미지 내의 인물의 시선 방향 정보를 얻기 위한 방향 확정 유닛을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제24항에 있어서,
상기 화상 처리 유닛은,
상기 머리 형태 정보에 기반하여 상기 얼굴 이미지 내의 인물의 머리 좌표계를 확정하기 위한 머리 좌표 확정 서브 유닛;
상기 머리 좌표계에 기반하여 상기 얼굴 이미지에 대응하는 실제의 카메라 좌표계에 대해 회전 및 평행 이동을 실행하여 가상 카메라 좌표계를 얻기 위한 좌표 변환 서브 유닛; 및
상기 실제의 카메라 좌표계와 상기 가상 카메라 좌표계 사이의 위치 변환 관계에 기반하여, 상기 얼굴 이미지에 대해 정규화 처리를 실행하여 상기 정규화된 얼굴 이미지를 얻기 위한 화상 처리 서브 유닛을 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제17항 내지 제25항 중 어느 한 항에 있어서,
상기 주시 영역 분류기는 상기 소정의 3차원 공간에 대한 트레이닝 샘플 세트를 이용하여 사전에 트레이닝된 것이며, 여기서, 상기 트레이닝 샘플 세트는 복수의 시선 특징 샘플을 포함하고, 각 상기 시선 특징 샘플은 시선 시작점 정보, 시선 방향 정보 및 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보를 포함하며, 라벨링한 주시 영역의 종류는 상기 소정의 3차원 공간을 분할하여 얻은 상기 복수 종류의 정의된 주시 영역 중의 하나에 속하는
것을 특징으로 하는 주시 영역 검출 장치. - 제26항에 있어서,
분류기 트레이닝 모듈을 더 구비하며,
상기 분류기 트레이닝 모듈은,
적어도 하나의 상기 시선 특징 샘플의 상기 시선 시작점 정보 및 상기 시선 방향 정보를 트레이닝 대기의 주시 영역 분류기에 입력하여, 당해 시선 특징 샘플에 대응하는 주시 영역 종류 예측 정보를 얻기 위한 종류 예측 서브 모듈; 및
상기 주시 영역 종류 예측 정보와 당해 시선 특징 샘플에 대응하는 주시 영역 종류의 라벨링 정보 사이의 편차에 기반하여, 상기 주시 영역 분류기에 대해 파라미터 조정을 실행하여 상기 주시 영역 분류기를 트레이닝하기 위한 파라미터 조정 서브 모듈을 더 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제26항에 있어서,
상기 소정의 3차원 공간의 공간 식별자에 기반하여 소정의 주시 영역 분류기 세트 중에서 상기 공간 식별자에 대응하는 주시 영역 분류기를 취득하기 위한 분류기 취득 모듈을 더 구비하되,
상기 소정의 주시 영역 분류기 세트는 서로 다른 3차원 공간의 공간 식별자에 각각 대응하는 주시 영역 분류기를 포함하는
것을 특징으로 하는 주시 영역 검출 장치. - 제17항 내지 제28항 중 어느 한 항에 있어서,
상기 소정의 3차원 공간은 차량 공간을 포함하는
것을 특징으로 하는 주시 영역 검출 장치. - 제29항에 있어서,
상기 얼굴 이미지는 상기 차량 공간 내의 운전 영역에 대해 수집된 이미지에 기반하여 확정된 것이며,
상기 복수 종류의 정의된 주시 영역은 왼쪽 전면 유리 영역, 오른쪽 전면 유리 영역, 계기판 영역, 내부 백미러 영역, 중앙 콘솔 영역, 왼쪽 백미러 영역, 오른쪽 백미러 영역, 차광판 영역, 변속 레버 영역, 스티어링 휠 아래 영역, 부조종사 영역, 부조종사 앞의 글로브 박스 영역 중의 적어도 둘을 포함하는
것을 특징으로 하는 주시 영역 검출 장치. - 제17항 내지 제30항 중 어느 한 항에 있어서,
상기 주시 영역 검출 모듈이 얻은 주시 영역 종류 검출 결과에 기반하여 상기 얼굴 이미지에 대응하는 인물의 주의력 모니터링 결과를 확정하기 위한 주의력 모니터링 모듈; 및
상기 주의력 모니터링 결과를 출력하고 및/또는 상기 주의력 모니터링 결과에 기반하여 주의 산만 프롬프트 정보를 출력하기 위한 모니터링 결과 출력 모듈을 더 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 제17항 내지 제31항 중 어느 한 항에 있어서,
상기 주시 영역 검출 모듈이 얻은 주시 영역 종류 검출 결과에 대응하는 제어 명령을 확정하기 위한 제어 명령 확정 모듈; 및
전자 디바이스가 상기 제어 명령에 해당하는 조작을 실행하도록 제어하기 위한 조작 제어 모듈을 더 구비하는
것을 특징으로 하는 주시 영역 검출 장치. - 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 당해 프로세서로 하여금 제1항 내지 제16항 중 어느 한 항에 기재된 방법을 실현하도록 하는
것을 특징으로 하는 컴퓨터 판독 가능 기록 매체. - 전자 디바이스로서,
메모리 및 프로세서를 구비하며,
상기 메모리에는 컴퓨터 프로그램이 기억되어 있으며,
상기 프로세서가 상기 컴퓨터 프로그램을 실행할 때, 제1항 내지 제16항 중 어느 한 항에 기재된 방법이 실현되는
것을 특징으로 하는 전자 디바이스.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204793.1 | 2019-03-18 | ||
CN201910204793.1A CN111723828B (zh) | 2019-03-18 | 2019-03-18 | 注视区域检测方法、装置及电子设备 |
PCT/CN2019/127833 WO2020186867A1 (zh) | 2019-03-18 | 2019-12-24 | 注视区域检测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210104107A true KR20210104107A (ko) | 2021-08-24 |
Family
ID=72519550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217022187A KR20210104107A (ko) | 2019-03-18 | 2019-12-24 | 주시 영역 검출 방법, 장치 및 전자 디바이스 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7244655B2 (ko) |
KR (1) | KR20210104107A (ko) |
CN (1) | CN111723828B (ko) |
WO (1) | WO2020186867A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023128358A1 (ko) * | 2021-12-29 | 2023-07-06 | 삼성전자 주식회사 | 안구 모델에 기초하여 센싱 범위를 결정하는 시선 추적 방법, 장치 및 시선 추적 센서 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308006A (zh) * | 2020-11-10 | 2021-02-02 | 深圳地平线机器人科技有限公司 | 视线区域预测模型生成方法、装置、存储介质及电子设备 |
CN112434741A (zh) * | 2020-11-25 | 2021-03-02 | 杭州盛世传奇标识系统有限公司 | 一种互动介绍标识的使用方法、系统、装置和存储介质 |
CN112329718A (zh) * | 2020-11-26 | 2021-02-05 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN112528842A (zh) * | 2020-12-07 | 2021-03-19 | 北京嘀嘀无限科技发展有限公司 | 用于姿态检测的方法、装置、设备和存储介质 |
CN112580522A (zh) * | 2020-12-22 | 2021-03-30 | 北京每日优鲜电子商务有限公司 | 睡眠人员检测方法、装置、设备及存储介质 |
WO2022141114A1 (zh) * | 2020-12-29 | 2022-07-07 | 深圳市大疆创新科技有限公司 | 视线估计方法、装置、车辆及计算机可读存储介质 |
CN112766097B (zh) * | 2021-01-06 | 2024-02-13 | 中国科学院上海微系统与信息技术研究所 | 视线识别模型的训练方法、视线识别方法、装置及设备 |
CN112733740B (zh) * | 2021-01-14 | 2024-05-28 | 深圳数联天下智能科技有限公司 | 一种注意力信息的生成方法、装置、终端设备及存储介质 |
CN113115086B (zh) * | 2021-04-16 | 2023-09-19 | 浙江闪链科技有限公司 | 基于视频视线识别对电梯媒体收视信息进行采集的方法 |
WO2023272635A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 一种目标位置的确定方法、确定装置及确定系统 |
CN113627267A (zh) * | 2021-07-15 | 2021-11-09 | 中汽创智科技有限公司 | 一种视线检测方法、装置、设备及介质 |
EP4365051A4 (en) * | 2021-07-30 | 2024-08-14 | Huawei Tech Co Ltd | VEHICLE CONTROL METHOD AND ASSOCIATED APPARATUS |
CN113569785A (zh) * | 2021-08-04 | 2021-10-29 | 上海汽车集团股份有限公司 | 驾驶状态感知方法及装置 |
CN113807330B (zh) * | 2021-11-19 | 2022-03-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 面向资源受限场景的三维视线估计方法及装置 |
CN114677476B (zh) * | 2022-03-30 | 2024-08-16 | 北京字跳网络技术有限公司 | 一种脸部处理方法、装置、计算机设备及存储介质 |
CN114916936A (zh) * | 2022-06-06 | 2022-08-19 | 中国科学院西安光学精密机械研究所 | 一种基于多模态技术的驾驶状态检测预警系统及方法 |
CN114967935B (zh) * | 2022-06-29 | 2023-04-07 | 深圳职业技术学院 | 基于视线估计的交互方法、装置、终端设备及存储介质 |
CN116030512B (zh) * | 2022-08-04 | 2023-10-31 | 荣耀终端有限公司 | 注视点检测方法及装置 |
CN115761871B (zh) * | 2022-12-01 | 2023-08-11 | 北京中科睿医信息科技有限公司 | 基于眼动检测的检测图像生成方法、装置、设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106293031B (zh) * | 2015-06-04 | 2019-05-21 | 北京智谷睿拓技术服务有限公司 | 信息处理方法、信息处理装置及用户设备 |
CN107878326A (zh) * | 2016-09-30 | 2018-04-06 | 法乐第(北京)网络科技有限公司 | 车辆驾驶辅助装置及车辆驾驶辅助控制方法 |
CN106891811A (zh) * | 2017-03-15 | 2017-06-27 | 黄建平 | 一种汽车显示系统 |
JP6638701B2 (ja) * | 2017-06-08 | 2020-01-29 | トヨタ自動車株式会社 | 運転意識推定装置 |
US10843686B2 (en) * | 2017-06-08 | 2020-11-24 | Envisics Ltd | Augmented reality (AR) visualization of advanced driver-assistance system |
CN107590482A (zh) * | 2017-09-29 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 信息生成方法和装置 |
CN107679490B (zh) * | 2017-09-29 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
CN108875524B (zh) * | 2018-01-02 | 2021-03-02 | 北京旷视科技有限公司 | 视线估计方法、装置、系统和存储介质 |
CN108171218A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于深度外观注视网络的视线估计方法 |
-
2019
- 2019-03-18 CN CN201910204793.1A patent/CN111723828B/zh active Active
- 2019-12-24 WO PCT/CN2019/127833 patent/WO2020186867A1/zh active Application Filing
- 2019-12-24 JP JP2021540793A patent/JP7244655B2/ja active Active
- 2019-12-24 KR KR1020217022187A patent/KR20210104107A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023128358A1 (ko) * | 2021-12-29 | 2023-07-06 | 삼성전자 주식회사 | 안구 모델에 기초하여 센싱 범위를 결정하는 시선 추적 방법, 장치 및 시선 추적 센서 |
Also Published As
Publication number | Publication date |
---|---|
CN111723828A (zh) | 2020-09-29 |
JP2022517254A (ja) | 2022-03-07 |
JP7244655B2 (ja) | 2023-03-22 |
CN111723828B (zh) | 2024-06-11 |
WO2020186867A1 (zh) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210104107A (ko) | 주시 영역 검출 방법, 장치 및 전자 디바이스 | |
CN111566612A (zh) | 基于姿势和视线的视觉数据采集系统 | |
CN108450058B (zh) | 实时自动车载相机校准 | |
CN110853073B (zh) | 确定关注点的方法、装置、设备、系统及信息处理方法 | |
US9437001B2 (en) | Tracking objects in bowl-shaped imaging systems | |
EP3648448A1 (en) | Target feature extraction method and device, and application system | |
WO2019184573A1 (en) | Passenger-related item loss mitigation | |
CN106575437B (zh) | 信息处理装置、信息处理方法以及程序 | |
US20190026922A1 (en) | Markerless augmented reality (ar) system | |
WO2023016271A1 (zh) | 位姿确定方法、电子设备及可读存储介质 | |
CN111797657A (zh) | 车辆周边障碍检测方法、装置、存储介质及电子设备 | |
García et al. | Driver monitoring based on low-cost 3-D sensors | |
US9606623B2 (en) | Gaze detecting apparatus and method | |
EP3956807A1 (en) | A neural network for head pose and gaze estimation using photorealistic synthetic data | |
US20160360186A1 (en) | Methods and systems for human action recognition using 3d integral imaging | |
JP5001930B2 (ja) | 動作認識装置及び方法 | |
CN105205459B (zh) | 一种图像特征点类型的识别方法和装置 | |
US20210331628A1 (en) | A-pillar display device, a-pillar display method, and non-transitory medium | |
US20140152549A1 (en) | System and method for providing user interface using hand shape trace recognition in vehicle | |
US10964046B2 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program for estimating face orientation by using an omni-directional camera | |
CN114463832A (zh) | 一种基于点云的交通场景视线追踪方法及系统 | |
CN112291701B (zh) | 定位验证方法、装置、机器人、外部设备和存储介质 | |
CN113168532A (zh) | 目标检测方法、装置、无人机及计算机可读存储介质 | |
CN113994382A (zh) | 深度图生成方法、电子设备、计算处理设备及存储介质 | |
WO2014169441A1 (en) | Method and system for eye tracking using combination of detection and motion estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
WITB | Written withdrawal of application |