KR20200077554A

KR20200077554A - 어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체

Info

Publication number: KR20200077554A
Application number: KR1020207014793A
Authority: KR
Inventors: 페이 왕; 크어위 천; 천 치엔
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2018-10-19
Filing date: 2019-09-30
Publication date: 2020-06-30
Also published as: EP3798900A1; KR102449248B1; JP2021504824A; US11403879B2; CN111079479A; SG11202004944PA; WO2020078214A1; EP3798900A4; JP7028973B2; US20200285842A1

Abstract

본 출원의 실시예는 어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체를 개시하였고, 여기서, 상기 어린이의 상태 분석 방법은, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계; 얼굴 특징에 따라 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하는 단계; 및 제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 제1 분류 결과 및 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 하나를 수행하는 단계를 포함한다.

Description

어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체

관련 출원의 상호 참조

본 출원은 2018년 10월 19일에 중국 특허청에 제출한 출원 번호가 CN201811224784.0이고, 발명의 명칭이 "어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체”인 중국 특허 출원의 우선권을 주장하며, 그 전부 내용은 인용을 통해 본 출원에 결합된다.

본 출원은 컴퓨터 시각 기술에 관한 것으로서, 특히 어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체에 관한 것이다.

최근 몇년 동안 컴퓨터 비전(Vision) 분야에서, 딥러닝(Deep Learning)은 이미지 분류, 포지셔닝, 분할, 인식 등 작업에 널리 사용되어 우수한 성적을 얻었다. 딥러닝은 얼굴 관련 작업에도 사용되어, 큰 성공을 거두었다. 예를 들어, 선행기술은 3 차원 얼굴 정렬, 트윈 네트워크(Twin network), 로컬 컨볼루션 및 많은 훈련 데이터를 통해, 얼굴에 대한 기계의 인식률이 인간에 접근하도록 하였다.

본 출원의 실시예는 어린이의 상태 분석 기술을 제공한다.

본 출원의 실시예의 제1 측면에 따라, 제공된 어린이의 상태 분석 방법은,

획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계;

얼굴 특징에 따라 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 상기 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하는 단계; 및

제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 상기 제1 분류 결과 및 상기 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 적어도 하나를 수행하는 단계를 포함한다.

본 출원의 실시예의 제2 측면에 따라, 제공된 어린이의 상태 분석 장치는,

획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 위한 특징 추출 유닛;

얼굴 특징에 따라 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하기 위한 분류 유닛; 및

상기 제1 분류 결과 및 상기 제2 분류 결과를 출력하는 것, 및 상기 제1 분류 결과 및 상기 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 적어도 하나를 수행하기 위한 결과 출력 유닛을 포함한다.

본 출원의 실시예의 제3 측면에 따라, 제공된 차량은, 상기 어느 한 항에 따른 어린이의 상태 분석 장치를 포함한다.

본 출원의 실시예의 제4 측면에 따라, 제공된 전자 기기는, 프로세서를 포함하고, 상기 프로세서는 상기 어느 한 항에 따른 어린이의 상태 분석 장치를 포함한다.

본 출원의 실시예의 제5 측면에 따라, 제공된 전자 기기는, 실행 가능한 명령어를 저장하기 위한 메모리; 및

상기 메모리와 통신하여 상기 실행 가능한 명령어를 실행함으로써 상기 어느 한 항에 따른 어린이의 상태 분석 방법을 완료하기 위한 프로세서를 포함한다.

본 출원의 실시예의 제6 측면에 따르면, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 상기 명령어는 실행될 때 상기 어느 한 항에 따른 어린이의 상태 분석 방법의 단계를 실행한다.

본 출원의 실시예의 제7 측면에 따르면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 판독 가능한 코드가 기기에서 작동될 때, 상기 기기에서의 프로세서는 상기 어느 한 항에 따른 어린이의 상태 분석 방법을 구현하기 위한 명령어를 실행한다.

본 출원의 상기 실시예에 기반하여 제공된 어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체에 있어서, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하고; 얼굴 특징에 따라 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하며; 제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 상기 제1 분류 결과 및 상기 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 적어도 하나를 수행하며; 얼굴 특징을 공유함으로써 네트워크 크기를 감소시켜, 네트워크 복잡성을 감소시키며, 네트워크 처리 속도를 가속화시킴으로써, 신속한 어린이의 상태 분석을 구현하여, 어린이의 상이한 상태를 적시에 처리한다.

아래에, 첨부된 도면 및 실시예를 참조하여 본 출원의 기술 방안을 상세히 설명한다.

본 명세서의 일부를 구성하는 도면은 본 출원의 실시예를 설명하고, 본출원의 원리를 설명과 함께 해석하기 위한 것이다.
도면을 참조하면, 본 출원은 다음의 상세한 설명에 따라, 더욱 명확하게 이해될 수 있으며, 여기서,
도 1은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 흐름 모식도이다.
도 2는 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 다른 흐름 모식도이다.
도 3은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 또 다른 흐름 모식도이다.
도 4는 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 또 다른 흐름 모식도이다.
도 5는 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법 예 중 남자 어린이의 참조 이미지이다.
도 6은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법 예 중 여자 어린이의 참조 이미지이다.
도 7은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 장치의 구조 모식도이다.
도 8은 본 출원의 실시예의 단말 기기 또는 서버를 구현하기에 적합한 전자 기기의 구조 모식도이다.

아래에 첨부 도면을 참조하여 본 출원의 다양한 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 구체적으로 언급되지 않는 한, 실시예에 제시된 구성 요소, 단계의 상대적인 배열, 수치 표현 및 값은 본 출원의 범위를 한정하려는 것이 아니다.

또한, 설명의 편의를 위해, 도면에 도시된 각 부분의 크기는 실제 비율로 도시되지 않았음을 이해해야 한다.

적어도 하나의 예시적인 실시예에 대한 다음의 설명은 실제로 예시적인 것에 불과하며, 본 출원 및 그 응용이나 사용에 대한 어떠한 한정으로도 간주되지 않는다.

관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 적절한 경우, 상기 기술, 방법 및 기기는 명세서의 일부로 간주되어야 한다.

유의해야 할 것은, 다음의 도면에서 유사한 참조 번호 및 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 추가로 논의될 필요가 없다.

본 출원의 실시예는 컴퓨터 시스템/서버에 응용될 수 있으며, 이는 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 작동될 수 있다. 컴퓨터 시스템/서버와 함께 사용하기에 적합한 잘 알려진 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드 헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 시스템 중 어느 하나를 포함하는 분산 클라우드 컴퓨팅 기술 환경을 포함하지만 이에 한정되지 않는다.

컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능 명령 (예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현될 수 있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.

도 1은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 흐름 모식도이다. 상기 방법은 단말 기기, 서버, 모바일 기기, 차량 탑재 기기 등과 같은 임의의 어린이의 상태 분석 기기에 의해 실행될 수 있으며, 본 출원의 실시예는 이를 한정하지 않는다. 도 1에 도시된 바와 같이, 상기 실시예의 방법은 다음의 단계들을 포함한다.

단계 110에 있어서, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행한다.

선택적으로, 사람의 상태는 종종 단일 프레임 이미지의 상태에 의해 결정될 수 없으며, 예를 들어, 사람이 수면 상태에 있는지 여부를 결정해야 하는 경우, 단일 프레임 이미지에서 사람의 눈은 감은 상태에 있어야 할 뿐만 아니라, 멀티 프레임 이미지에서 눈의 감긴 상태를 결정해야 하므로, 본 출원의 실시예는 획득된 비디오 스트림을 통해 상태 분석을 수행한다.

선택적으로, 본 실시예는 특징 추출을 구현할 수 있는 임의의 뉴럴 네트워크 또는 다른 방식을 사용하여 비디오 스트림에서의 이미지에 대해 특징 추출을 수행하여, 얼굴 특징을 획득할 수 있으며, 본 출원의 실시예는 얼굴 특징을 획득하는 구체적인 방식에 대해 한정하지 않는다. 본 실시예는 임의의 공간에서 촬영 기기에 의해 수집된 비디오 스트림에 적용될 수 있으며, 획득된 비디오 스트림에서의 이미지가 일반적으로 얼굴을 포함할 뿐만 아니라, 선택적으로, 특징 추출을 수행하기 전에, 획득된 비디오 스트림에서의 이미지에 대해 얼굴 인식을 수행하여 획득된 얼굴 이미지를 더 포함한다.

하나의 선택적인 예에서, 상기 단계 110는 메모리에 저장된 상응한 명령어가 프로세서에 의해 호출되어 실행될 수 있거나, 프로세서에 의해 작동되는 특징 추출 유닛(71)에 의해 실행될 수도 있다.

단계 120에 있어서, 얼굴 특징에 따라 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득한다.

본 출원의 실시예에서 언급된 어린이는, 아동, 영아, 유아 등을 포함할 수 있지만 이에 한정되지 않으며; 이미지에서의 사람이 어린이인지 여부를 결정하기 위해, 일반적으로 대중적 시각으로부터 어린이라고 간주하는 사람을 어린이로 결정할 수 있거나, 기준 연령 또는 자체 정의 연령 이하인 사람을 어린이로 결정할 수도 있고, 예를 들어, 기준 연령은 법으로 규정된 아동 연령(예컨대 12 세)일 수 있거나, 자체 정의 연령을 3 세, 6 세 또는 8 세 등으로 설정할 수 있으며, 본 출원의 실시예는 어린이의 특정 연령을 한정하지 않고, 구체적인 상황에 따라 상이한 연령대를 어린이로 자체 정의할 수 있으며, 예를 들어, 유치원에서는 6 세 미만을 어린이로 정의하고, 승차 시 12 세 미만을 어린이로 정의한다.

연령에 기반하여 이미지에서의 사람이 어린이인지 여부를 결정하는 외에도, 연령 판단을 거치지 않고 훈련된 뉴럴 네트워크 등 분류 브랜치를 통해, 입력된 이미지에 대해 어린이인지 여부의 분류 처리를 수행할 수 있다.

본 출원의 실시예에서, 획득된 얼굴 특징에 기반하여, 상기 이미지에서의 사람이 어린이인지 여부(두 가지 분류 결과를 포함함, 즉 하나는 상기 사람이 어린이임을 나타내고, 다른 하나는 상기 사람이 어린이가 아님을 나타냄)를 결정하고, 획득된 얼굴 특징에 기반하여, 상기 이미지에서의 사람의 상태(정상 상태, 이상 상태, 수면 상태, 잠을 깬 상태 및 차일드 시트 이탈 상태 등과 같은 복수 개의 상태의 분류 결과를 포함 가능함)를 결정한다.

본 실시예에서 적어도 두 개의 뉴럴 네트워크를 통해 상기 단계 110에 의해 얻어진 얼굴 특징에 대해 각각 처리를 수행하여, 하나의 뉴럴 네트워크를 통해 어린이인지 여부를 결정한 다음, 적어도 하나의 다른 뉴럴 네트워크를 통해 적어도 하나의 상태에 대해 분류를 수행하며; 또는, 하나의 뉴럴 네트워크를 통해 특징 추출을 구현하고, 어린이인지 여부 및 적어도 하나의 상태의 분류를 결정하며, 이 경우, 상기 뉴럴 네트워크는 특징 추출 브랜치 및 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 포함하거나, 적어도 두 개의 분류 브랜치에 연결된 통계 분류 브랜치를 더 포함하며; 적어도 두 개의 분류 브랜치는 얼굴 특징에 기반하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태의 분류를 각각 결정하며; 통계 분류 브랜치는 비디오 스트림 중 적어도 하나의 프레임 이미지에 대응하는 사람의 적어도 하나의 얼굴 상태의 분류 결과에 대해 통계를 수행하는 것을 구현함으로써, 통계 결과에 기반하여 사람의 적어도 하나의 상태의 분류를 결정한다. 본 실시예는 얼굴 특징을 공유함으로써 적어도 두 개의 분류 결과를 획득하여, 중복된 특징 추출의 과정을 감소시켜, 이미지 처리 속도를 향상시킨다.

하나의 선택적인 예에서, 상기 단계 120은 메모리에 저장된 상응한 명령어가 프로세서에 의해 호출되어 실행될 수 있거나, 프로세서에 의해 작동되는 분류 유닛(72)에 의해 실행될 수도 있다.

단계 130에 있어서, 제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 제1 분류 결과 및 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 하나를 수행한다.

본 실시예에서, 제1 분류 결과 및 제2 분류 결과를 얻은 후, 하나의 경우, 제1 분류 결과 및 제2 분류 결과를 출력할 수 있으며, 이 경우, 사용자는 제1 분류 결과 및 제2 분류 결과에 대해 확인 및 인식을 수행할 수 있고, 제1 분류 결과 및 제2 분류 결과에 따라 상응한 처리를 수행하며; 다른 하나의 경우, 제1 분류 결과 및 제2 분류 결과에 따라 프롬프트 정보를 출력할 때, 본 실시예는 프롬프트 정보를 직접 출력할 수 있고, 이 경우, 사용자는 제1 분류 결과 및 제2 분류 결과에 대해 확인 및 처리를 수행하여, 특정 상황에서만 프롬프트 정보를 수신하면 되며(예를 들어, 어린이가 우는 경우 등), 본 실시예는 프롬프트 정보를 직접 발송함으로써 특정 상황에 대한 사용자의 처리 효율을 향상시켜, 너무 많은 정보로 인해 사용자가 분류 결과를 인식해야 함으로써 야기되는 처리 시간 지연 문제를 감소시킬 수 있다.

여기서, 프롬프트 정보는 사운드 프롬프트 정보, 이미지 프롬프트 정보, 진동 프롬프트 정보, 냄새 프롬프트 정보 등 중 적어도 하나를 포함하지만 이에 한정되지 않으며, 다른 사람이 상기 정보를 수신할 수 있기만 하면, 본 실시예는 프롬프트 정보의 구체적인 표현 형태를 한정하지 않는다.

하나의 선택적인 예에서, 상기 단계 130은 메모리에 저장된 상응한 명령어가 프로세서에 의해 호출되어 실행될 수 있거나, 프로세서에 의해 작동되는 결과 출력 유닛(73)에 의해 실행될 수도 있다.

본 출원의 상기 실시예에 기반하여 제공된 어린이의 상태 분석 방법에 있어서, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하고; 추출된 얼굴 특징을 공유하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하며; 제1 분류 결과 및 제2 분류 결과를 출력하고; 얼굴 특징을 공유함으로써 네트워크 크기를 감소시켜, 네트워크 복잡성을 감소시키며, 네트워크 처리 속도를 가속화시킴으로써, 신속한 어린이의 상태 분석을 구현하여, 어린이의 상이한 상태를 적시에 처리한다.

도 2는 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 다른 흐름 모식도이다. 도 2에 도시된 바와 같이, 본 실시방법은 단계 130 후에, 다음의 단계들을 더 포함한다.

단계 240에 있어서, 제1 분류 결과가 이미지에서의 사람이 어린이임을 나타내는 것에 응답하여, 제2 분류 결과가 소정의 조건을 만족하는지 여부를 결정한다.

동일한 이미지에 의해 획득된, 어린이인지 여부 결과 및 상태의 분류 결과를 종합하여, 어린이인 사람의 상태, 및 어린이가 아닌 사람의 상태를 결정할 수 있으며, 어린이의 상태는 더욱 제어하기 어려우므로, 더 많은 주의가 필요하며, 본 실시예는 결과로부터 어린이의 상태를 획득한다.

단계 250에 있어서, 제2 분류 결과가 소정의 조건을 만족하는 것에 응답하여, 프롬프트 정보를 출력한다.

성인과 같은 다른 단체에 비해, 어린이는 외부 자극으로 인해 부정적인 상태가 발생하기 쉬우므로, 어린이의 상태가 기설정 조건(예를 들어, 울음)에 해당될 경우, 위험 발생 확률을 낮추기 위해 다른 사람이 적시에 처리해야 하며, 다른 사람이 적시에 어린이의 상태를 발견할 수 있도록 하기 위해, 본 출원의 실시예는 프롬프트 정보를 발송함으로써 다른 사람의 주의를 끌고, 프롬프트 정보는 사운드 프롬프트 정보, 이미지 프롬프트 정보, 진동 프롬프트 정보, 냄새 프롬프트 정보 등 중 적어도 하나를 포함하지만 이에 한정되지 않으며, 다른 사람이 상기 정보를 수신할 수 있기만 하면, 본 실시예는 프롬프트 정보의 구체적인 표현 형태를 한정하지 않는다.

하나 또는 복수 개의 선택적인 실시예에서, 사람의 상태는 정상 상태, 이상 상태, 수면 상태, 잠을 깬 상태 및 차일드 시트 이탈 상태 등 중 적어도 하나를 포함하지만 이에 한정되지 않는다.

제2 분류 결과는 사람의 상태가 정상 상태인지 여부, 사람의 상태가 이상 상태인지 여부, 사람의 상태가 수면 상태인지 여부, 사람의 상태가 잠을 깬 상태인지 여부 및 사람의 상태가 차일드 시트 이탈 상태인지 여부 등 중 적어도 하나를 포함하지만 이에 한정되지 않는다.

선택적으로, 얼굴이 평온한 상태(오관에 뚜렷한 변화가 없음)일 때 상기 사람은 정상 상태에 있고, 다른 상태는 분석될 단체의 특성(예컨대 어린이의 특성)에 따라 이상 상태를 정의하며; 예를 들어, 어린이의 경우, 이상 상태는 울음 상태, 화난 상태, 구토 상태, 급체 상태, 고통 상태 등 중 적어도 하나를 포함하지만 이에 한정되지 않는 것으로 간주될 수 있다. 어린이가 그 어떤 이상 상태에 있든지 모두 어느 정도의 위험성이나 긴급성을 가질 수 있으므로, 다른 사람들이 이에 대해 주의를 기울이고 상응한 조작을 수행해야 하며; 수면 상태는 사람이 눈을 감은 상태에 있는 시간이 기설정 시간에 도달한 것을 의미할 수 있으며, 잠을 깬 상태는 수면 상태로부터 깨어 있는 상태로 넘어가는 하나의 과도 상태를 지칭하며, 일반적으로 어린이의 잠을 깬 상태는 울음 등 이상 상태가 동반되므로, 어린이의 잠을 깬 상태에 대해서도 주의가 필요하며; 어린이가 차 안에 있을 때, 안전상의 이유로, 어린이는 차일드 시트에 앉아, 갑작스런 주차 등 차량 동작으로 인한 위험 발생 확률을 낮춰야 하므로, 차 안에 있는 어린이의 경우, 상기 상태에 대한 분석 외에도, 차일드 시트를 이탈한 상태인지 여부도 분석해야 하며, 어린이의 상태가 차일드 시트 이탈 상태이면, 이는 어린이가 언제든지 위험에 처할 수 있음을 의미하며, 성인을 비롯한 다른 사람이 어린이 위치를 조정할 필요가 있다.

선택적으로, 소정의 조건은 사람의 상태가 이상 상태인 것, 사람의 상태가 잠을 깬 상태인 것, 사람의 상태가 차일드 시트 이탈 상태인 것 등 중 적어도 하나를 포함하지만 이에 한정되지 않는다.

본 출원의 실시예에서, 제2 분류 결과가 상기에 제공된 소정의 조건 중의 적어도 하나에 해당될 경우, 다른 사람이 어린이의 상태에 대해 적시에 조정할 수 있도록 보장하여, 안전을 보장할 수 있도록, 프롬프트 정보를 발송해야 하며, 예를 들어, 영아실에서 어린이가 울면(이상 상태), 위험 발생 확률을 낮추기 위해 프롬프트 정보를 발송하여 보호자에게 적시에 처리하도록 알리거나, 유치원에서, 어린이에게 구토 증상 및 체증이 있는 경우, 어린이를 적시에 처리하지 못할 경우 생명의 위험이 있으므로, 다른 성인의 주의를 끌기 위해 프롬프트 정보(예컨대, 사운드 프롬프트 정보 등)를 적시에 발송함으로써, 어린이의 상태를 적시에 처리하거나 병원에 이송하는 것을 구현한다.

선택적으로, 이상 상태는 응급 상황 및 비응급 상황으로 나눌 수 있으며, 응급 상황은 적시에 처리해야 함을 의미하고, 적시에 처리하지 못할 경우 심각한 결과가 발생될 수 있으며, 예를 들어, 어린이가 구토 및 체증 중 적어도 하나의 증상이 있을 경우, 적시에 처리하지 않으면 어린이는 생명의 위험에 처하게 되지만; 다만 응급 상황과 비교하여 비응급 상황은, 일반적으로 이상 상황은 모두 적시에 처리하며, 선택적으로, 상기 사람의 울음 상태에 있는 시간이 제1 기설정 시간에 도달하는 것, 상기 사람의 화난 상태에 있는 시간이 제2 기설정 시간에 도달하는 것, 및 상기 사람의 고통 상태에 있는 시간이 제3 기설정 시간에 도달하는 것 중 적어도 하나에 응답하여, 프롬프트 정보를 출력한다.

어린이의 상태는 일반적으로 불안정 상태에 속하고, 지난 1 초 동안에는 울음 상태 및 화난 상태 중 적어도 하나로 나타나며, 다음 1 초 동안에는 자동으로 회복되고, 따라서, 울음 상태의 지속 시간이 제1 기설정 시간보다 짧은 경우, 프롬프트 메시지의 빈도를 감소시키며 사용자 경험을 향상시키기 위해, 프롬프트 정보를 보내지 않을 수 있고, 화난 것은 우는 것과 달리, 우는 것은 어린이 자체 행위이기 때문에, 다른 어린이에게 영향을 적게 미치며(어린이들 단체에 있을 때), 화난 것은 다른 어린이에게 위협적이며(어린이들 단체 내에서, 몸싸움을 일으킬 수 있음), 따라서, 울음 상태에 대응하는 제1 기설정 시간 및 화난 상태에 대응하는 제2 기설정 시간은 일반적으로 상이하며; 어린이가 울음 상태, 화난 상태 및 고통 상태 중 적어도 하나의 상태의 시간이 각자의 기설정 시간에 각각 도달할 때, 이는 어린이의 상태가 스스로 회복될 수 없고, 외부 개입이 필요함을 의미하며, 본 출원의 실시예는 프롬프트 정보를 발송함으로써 외부 개입을 구현한다.

도 3은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 또 다른 흐름 모식도이다. 도 3에 도시된 바와 같이, 본 실시방법은 다음의 단계를 포함한다.

단계 310에 있어서, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행한다.

단계 320에 있어서, 뉴럴 네트워크에서 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태의 분류를 각각 결정함으로써, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득한다.

단계 330에 있어서, 제1 분류 결과 및 제2 분류 결과를 출력한다.

본 출원의 실시예는 특징 추출 브랜치 및 적어도 두 개의 분류 브랜치를 포함한 뉴럴 네트워크를 통해 구현되며, 적어도 두 개의 분류 브랜치를 통해 적어도 두 개의 분류 결과(예를 들어, 어린이인지 여부 결과, 및 사람의 적어도 하나의 상태의 분류 결과)를 동시에 획득하며, 뉴럴 네트워크에서의 특징 추출 브랜치를 통해 얼굴 이미지에 대해 특징 추출을 수행하여, 복수 개의 분류 브랜치가 특징 추출을 각각 수행할 필요가 없으므로, 네트워크 처리 속도를 향상시킨다. 특징 추출 브랜치의 참여는, 네트워크를 보다 강건성 있도록 하고, 일반화 능력을 더욱 강하게 한다. 공유 파라미터로 인해, 얼굴 특징 추출 동작은 1 회만 수행될 필요가 있고, 이에 기반하여 어린이인지 여부 및 사람의 상태를 결정하여, 동일한 얼굴 특징으로 분류를 수행함으로써, 분류의 정확성를 향상시키고, 네트워크의 피드 포워드(Feedforward) 속도를 향상시킨다.

도 4는 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법의 또 다른 흐름 모식도이다. 도 4에 도시된 바와 같이, 본 실시방법은 다음의 단계를 포함한다.

단계 410에 있어서, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행한다.

단계 420에 있어서, 뉴럴 네트워크에서 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 얼굴 상태의 분류를 각각 결정한다.

선택적으로, 사람의 얼굴 상태는 눈을 뜬 상태, 눈을 감은 상태 등 중 적어도 하나를 포함하지만 이에 한정되지 않는다.

단계 430에 있어서, 뉴럴 네트워크에서 적어도 두 개의 분류 브랜치에 연결된 통계 분류 브랜치를 통해, 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대응하는 사람의 적어도 하나의 얼굴 상태의 분류 결과에 대해 통계를 수행하여, 통계 결과에 기반하여 상기 사람의 적어도 하나의 상태의 분류를 결정한다.

설정 시간 내의 얼굴 상태 통계 결과를 결합하여 상이한 얼굴 상태를 통해 사람의 상태를 결정할 수 있으며, 예를 들어, 통계 분류 브랜치가, 얼굴 상태가 눈을 감은 시간(연속적으로 수신한 멀티 프레임 이미지의 분류 결과는 눈을 감은 상태임)이 설정 시간에 도달하거나 기설정 시간창 내에서 눈을 감은 상태에 있는 시간 비율이 임계값을 초과한 것으로 결정하면, 상기 사람이 수면 상태에 있다고 간주할 수 있으며; 통계 브랜치가 얼굴 상태가 장시간 눈을 감은 상태에서 눈을 뜬 상태로 변화된 시간이 일정 시간에 도달한 것으로 결정할 때(눈을 감은 후의 적어도 하나의 얼굴 상태는 눈을 뜬 상태임), 상기 사람이 잠을 깬 상태에 있는 것으로 간주할 수 있다. 차일드 시트 영역의 얼굴 또는 인체를 검출하고 설정 시간 내의 얼굴 또는 인체의 통계 결과를 결합함으로써, 어린이가 차일드 시트를 이탈했는지를 결정하며, 예를 들어, 차일드 시트에 어린이가 있음을 검출한 후 일정 시간 내에 차일드 시트 영역에 대응하는 이미지에서 어린이가 검출되지 않으면, 어린이가 차일드 시트를 이탈한 것으로 결정할 수 있다.

단계 440에 있어서, 제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 제1 분류 결과 및 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 하나를 수행한다.

단일 프레임 이미지를 통해 결정할 수 없는 일부 상태의 경우, 연속 멀티 프레임(상기 연속 멀티 프레임은 비디오에서 시간 상의 연속 프레임일 수 있거나, 비디오에서 간격을 갖는 멀티 프레임일 수 있음) 이미지의 얼굴 상태를 결합하여 결정해야 하며, 예를 들어, 정상 상태, 이상 상태, 수면 상태, 잠을 깬 상태 차일드 시트 이탈 상태 등이며, 따라서, 본 출원의 실시예는 통계 분류 브랜치를 결합하여, 멀티 프레임 이미지의 얼굴 상태에 대해 통계를 수행함으로써, 상기 사람의 제2 분류 결과를 결정한다.

샘플 이미지의 태그, 예를 들어, 태그가 어린이인지 여부, 울음 상태인지 여부, 눈을 뜬 상태인지 여부, 눈을 감은 상태인지 여부 등 정보는, 수동 태그 또는 기계 태그 등 방식으로 구현할 수 있으며, 본 출원의 실시예는 이를 한정하지 않는다.

선택적으로, 이미지에서의 사람이 어린이인지 여부를 결정하는 분류 브랜치는 어린이 분류에 대한 정확성을 향상시키기 위해 어린이의 성별을 구별하는 태그 데이터에 기반하여 미리 훈련됨으로써 완료된다.

본 출원의 실시예에서, 이미지에서의 사람이 어린이인지 여부는 분류 브랜치를 통해 구현되며, 상기 분류 브랜치는 샘플 이미지의 훈련을 거치며, 성별에 따라 얼굴 특징은 상이하게 나타나며, 즉, 동일한 연령의 남자 어린이 및 여자 어린이의 경우, 연령을 인식할 때, 상이한 결과를 얻을 수 있으므로, 상기 분류 브랜치의 분류 정확성을 향상시키기 위해, 상기 분류 브랜치를 훈련시킬 때, 샘플 이미지를 어린이의 성별에 기반하여 구별할 수 있다.

하나 또는 복수 개의 선택적인 실시예에서, 단계 110 전에, 본 실시예의 방법은,

샘플 이미지를 이용하여 뉴럴 네트워크에 대해 훈련을 수행하는 단계 - 상기 샘플 이미지는 어린이의 태그 정보 및 상태 태그 정보를 가짐 - 를 더 포함한다.

본 출원의 실시예는 어린이의 상태에 대해 분석을 수행하기 전에, 다른 뉴럴 네트워크와 마찬가지로, 상기 뉴럴 네트워크에 대해 훈련을 수행해야 하며, 상기 뉴럴 네트워크가 적어도 두 개의 분류 브랜치를 포함하므로, 훈련 뉴럴 네트워크의 샘플 이미지는 어린이의 태그 정보 및 적어도 하나의 상태 태그 정보를 구비해야 하며, 상이한 분류 브랜치를 통해 적어도 두 개의 손실을 획득하여, 모든 손실에 기반하여 뉴럴 네트워크에 대해 훈련을 수행함으로써, 어린이 분류 및 상태 분류에 대한 뉴럴 네트워크를 동시에 얻는다.

선택적으로, 어린이의 태그 정보는 샘플 이미지에서의 사람이 어린이인지 여부를 나타내고, 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 큰 것에 응답하여, 샘플 이미지의 어린이의 태그 정보는 어린이가 아님을 나타내며, 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 작거나 같은 것에 응답하여, 상기 샘플 이미지의 어린이의 태그 정보는 어린이임을 나타낸다.

추정 연령을 수동으로 결정하든지 네트워크를 통해 획득된 사람의 연령을 결정하든지, 모두 오차가 존재할 수 있으므로, 샘플 이미지에서의 사람의 연령은 제공된 생년월일에 따라 획득된 연령이거나, 또는 수동으로 결정되거나 네트워크에 의해 결정되어 획득된 추정 연령일 수 있으며, 참조 이미지에서의 사람은 연령 또는 추정 연령을 사용할 수도 있다.

상이한 사람이 어린이에 대한 판단 기준이 상이하므로, 상이한 사람에 의해 태그된 후에 얻은 동일한 이미지의 태그 결과가 상이한 것을 초래하며, 본 실시예에서, 상기 샘플 이미지에서의 사람이 어린이인지 여부를 결정하기 위해, 샘플 이미지를 참조 이미지와 비교하여, 수동 태그로 인한 판단 기준의 차이를 줄임으로써, 샘플 이미지의 어린이의 태그 정보의 정확성을 향상시켜, 훈련 네트워크의 정확성을 향상시키며; 선택적으로, 본 실시예에서 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 큰지 여부는 수동으로 구현되거나, 훈련된 뉴럴 네트워크를 통해 구현될 수 있다.

선택적으로, 참조 이미지는 남자 어린이의 참조 이미지 및 여자 어린이의 참조 이미지를 포함한다.

성별에 따라 어린이의 판단 기준이 상이하며, 사람들의 시각 감지에는 종종 큰 차이가 있다. 따라서, 성별 차이로 인한 태그 정보의 오차를 감소시키기 위해, 본 실시예에서 남자 및 여자에 대해 남자 어린이의 참조 이미지 및 여자 어린이의 참조 이미지를 각각 설정함으로써, 태그 정보의 신뢰성을 향상시킨다. 예를 들어, 도 5는 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법 예 중 남자 어린이의 참조 이미지이다. 도 6은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 방법 예 중 여자 어린이의 참조 이미지이다. 두 개의 상이한 남자 어린이의 참조 이미지 및 여자 어린이의 참조 이미지를 기준으로 사용하여, 상기 참조 이미지에서의 사람의 연령 또는 추정 연령보다 크면, 어린이가 아닌 것으로 결정하며; 상기 참조 이미지에서의 사람의 연령 또는 추정 연령보다 작으면, 어린이인 것으로 결정한다. 남자, 여자로 나누어 하나의 이미지가 어린이인지 여부를 결정함으로써, 어린이 데이터 세트의 노이즈를 줄여, 어린이 데이터 세트의 정확성를 향상시킨다.

선택적으로, 샘플 이미지를 이용하여 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,

특징 추출 브랜치를 이용하여 샘플 이미지에 대해 얼굴 특징 추출을 수행하는 단계;

적어도 두 개의 분류 브랜치를 이용하여 추출된 얼굴 특징을 공유하여 샘플 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류함으로써, 샘플 이미지에서의 사람이 어린이인지 여부의 제1 예측 분류 결과 및 사람의 적어도 하나의 상태의 제2 예측 분류 결과를 획득하는 단계;

제1 예측 분류 결과 및 어린이의 태그 정보에 기반하여 제1 손실을 획득하고, 제2 예측 분류 결과 및 상태 태그 정보에 기반하여 제2 손실을 획득하는 단계; 및

제1 손실 및 제2 손실에 기반하여, 뉴럴 네트워크의 파라미터를 조정하는 단계를 포함한다.

선택적으로, 여기서 제2 예측 분류 결과는 적어도 하나를 포함할 수 있으며, 이에 대응하여 적어도 하나의 상태 태그 정보를 포함하여 적어도 하나의 제2 손실을 획득할 수 있고, 이 경우, 제1 손실 및 적어도 하나의 제2 손실에 기반하여 뉴럴 네트워크의 파라미터를 조정할 수 있다.

선택적으로, 어린이 데이터(어린이 사진 및 성인 사진) 및 어린이의 상태 데이터(예를 들어, 울음 상태 및 울지 않는 상태 등)를 네트워크의 입력으로 하고, 이러한 사진을 가로 뒤집기, 랜덤 클립핑, 색상 교란을 데이터 강화로 하여, 이러한 데이터는 얼굴 특징 추출 네트워크를 통해, 얼굴 특징을 추출한다. 어린이임을 결정하는 분류 브랜치 및 어린이의 상태를 결정하는 분류 브랜치를 추출된 특징 추출 브랜치 이후에 위치하도록 설계한다. 어린이의 분류 손실 및 어린이의 상태의 분류 손실을 각각 계산하고, 양자를 합산하여 최종 손실로 사용한다. 확률적 경사 강하 알고리즘을 사용하여 네트워크의 훈련을 수행한다. 예를 들어, 딥 컨볼루션 뉴럴 네트워크를 특징 추출 브랜치로 사용한다. 각 계층에서, 상이한 스케일의 컨볼루션 커널(예컨대 3x3, 5x5 등) 및 최대 풀링을 사용하여 상이한 스케일의 정보를 추출하며, 이러한 정보를 연결하여 다음 계층의 입력으로 사용한다. 선택적으로, 모델 훈련 속도를 향상시키기 위해, 1x1 컨볼루션을 사용하여 차원 축소를 수행하며, 큰 컨볼루션 커널을 복수 개의 작은 컨볼루션 커널(예컨대, 5x5 컨볼루션 커널을 두 개의 3x3 컨볼루션 커널로 분해함)로 분해할 수 있으므로, 동일한 기능의 네트워크를 구현하여, 작은 컨볼루션 커널의 네트워크를 선택함으로써 본 실시예를 구현한다. 마지막으로 네트워크에서의 기울기 전파를 최적화하기 위한 잔차 모듈을 도입한다. 양자는 결합되어, 얼굴의 특징 정보를 더 잘 추출할 수 있다.

선택적으로, 제1 손실 및 제2 손실에 기반하여, 뉴럴 네트워크의 파라미터를 조정하는 단계는,

제1 손실 및 제2 손실에 대해 가중합산을 수행하여, 네트워크 손실을 획득하는 단계; 및

네트워크 손실에 기반하여 특징 추출 브랜치 및 적어도 두 개의 분류 브랜치의 파라미터를 조정하는 단계를 포함한다.

제1 손실 및 제2 손실에 대해 가중합산을 수행하며, 여기서 상기 제2 손실은 하나 또는 복수 개일 수 있고, 복수 개의 제2 손실이 있을 때, 제1 손실 및 복수 개의 제2 손실에 대해 가중합산을 수행하며, 가중합산하여 획득된 네트워크 손실을 통해 뉴럴 네트워크에 대해 훈련을 수행함으로써 네트워크 훈련 속도를 향상시켜, 훈련하여 획득된 뉴럴 네트워크의 네트워크 성능을 향상시킨다.

하나 또는 복수 개의 선택적인 실시예에서, 본 출원의 실시예의 방법은,

차량 탑재 기기 및 단말 기기 중 적어도 하나를 통해 획득된 비디오 스트림, 제1 분류 결과, 적어도 하나의 제2 분류 결과, 프롬프트 정보 중 적어도 하나의 정보를 디스플레이하는 단계를 더 포함한다.

차량 운전 중, 어린이의 상태는 더 많은 주의가 필요하며, 운전자 또는 차량의 다른 구성원에게 차량 내부의 어린이의 상태를 알리기 위해, 선택적으로, 차량 탑재 기기를 통해 이상의 적어도 하나의 정보를 수신하고 디스플레이하며, 여기서 디스플레이는 스크린 상의 디스플레이에 제한되지 않고, 다른 방식으로 사용자가 프롬프트 정보를 수신할 수 있도록 하며, 예를 들어, 사운드 프롬프트 정보 재생, 진동 프롬프트 정보 전달 등이며, 차량 탑재 기기를 통해 정보를 디스플레이할 때, 운전자 또는 차량 내부의 다른 구성원이 차량 내의 상황을 적시에 확인할 수 있으며; 단말 기기는 임의의 위치에서 다른 공간(예컨대, 차 내부, 교실 내부 등)에 있는 어린이를 모니터링할 수 있으며, 예를 들어, 차량 외부의 다른 위치에서 차량 내부의 상황을 모니터링할 수 있으며, 운전자가 잠깐 차량을 떠날 때, 단말 기기(예컨대 휴대폰 등)를 통해 차량 내부의 승객, 특히 어린이의 상태를 확인할 수 있어, 프롬프트 정보를 수신하면, 차량에 즉시 돌아가, 돌발 상황에 대처할 수 있다. 예를 들어, 고속도로 휴계소에서 휴식 시, 화장실에 가려고 하지만, 차 안에 있는 어린이의 상황이 걱정되는 경우, 휴대폰 APP를 통해 스마트 뒷좌석 모니터링 기능을 켤 수 있다.

하나 또는 복수 개의 선택적인 실시예에서, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 전에,

차량 내부에 설치된 적어도 하나의 카메라를 통해 비디오 스트림을 수집하는 단계를 더 포함한다.

얼굴 이미지에서의 상태를 결정하기 위해, 개별 얼굴 이미지를 분석 기초로 사용하면 이미지가 뚜렷하지 못하거나 표정에 변화가 발생하는 등 정확하지 않는 상황이 발생하며, 정확한 상태 모니터링을 달성하기 위해, 본 실시예는 차량 내부의 카메라를 통해 차량 내부의 승객 이미지에 대해 수집을 수행하여, 비디오 스트림을 획득함으로써, 상기 비디오 스트림에서의 적어도 하나의 프레임 이미지로부터 얼굴 이미지를 획득하여, 획득된 얼굴 이미지로부터 차량 내의 어린이의 상태에 대한 모티터링을 구현한다.

당업자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완료될 수 있으며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있고, 상기 프로그램이 실행될 때, 상기 방법 실시예를 포함하는 단계를 실행하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.

도 7은 본 출원의 실시예에 의해 제공된 어린이의 상태 분석 장치의 구조 모식도이다. 상기 실시예의 장치는 본 출원의 상기 각 어린이의 상태 분석 방법 실시예를 구현하기 위해 사용될 수 있다. 도 7에 도시된 바와 같이, 상기 실시예의 장치는,

획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 위한 특징 추출 유닛(71);

얼굴 특징에 따라 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하기 위한 분류 유닛(72); 및

제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 제1 분류 결과 및 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 하나를 수행하기 위한 결과 출력 유닛(73)을 포함한다.

본 출원의 상기 실시예에 기반하여 제공된 어린이의 상태 분석 장치는, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하고; 얼굴 특징에 따라 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하며; 제1 분류 결과 및 제2 분류 결과를 출력하는 것, 및 제1 분류 결과 및 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 하나를 수행하며; 얼굴 특징을 공유함으로써 네트워크 크기를 감소시켜, 네트워크 복잡성을 감소시키며, 네트워크 처리 속도를 가속화시킴으로써, 신속한 어린이의 상태 분석을 구현하여, 어린이의 상이한 상태를 적시에 처리한다.

하나 또는 복수 개의 선택적인 실시예에서, 본 출원의 실시예 장치는,

제1 분류 결과가 이미지에서의 사람이 어린이임을 나타내는 것에 응답하여, 제2 분류 결과가 소정의 조건을 만족하는지 여부를 결정하기 위한 어린이 결정 유닛; 및

제2 분류 결과가 소정의 조건을 만족하는 것에 응답하여, 프롬프트 정보를 출력하기 위한 프롬프트 유닛을 더 포함한다.

성인과 같은 단체에 비해, 어린이는 외부 자극으로 인해 부정적인 상태가 발생하기 쉬우므로, 어린이의 상태가 기설정 조건(예를 들어, 울음 상태)에 해당될 경우, 위험 발생 확률을 낮추기 위해 다른 사람이 적시에 처리해야 하며, 다른 사람이 적시에 어린이의 상태를 발견할 수 있도록 하기 위해, 본 출원의 실시예는 프롬프트 정보를 발송함으로써 다른 사람의 주의를 끌고, 프롬프트 정보는 사운드 프롬프트 정보, 이미지 프롬프트 정보, 진동 프롬프트 정보, 냄새 프롬프트 정보 등 중 적어도 하나를 포함하지만 이에 한정되지 않으며, 다른 사람이 상기 정보를 수신할 수 있기만 하면, 본 실시예는 프롬프트 정보의 구체적인 표현 형태를 한정하지 않는다.

선택적으로, 이상 상태는 울음 상태, 화난 상태, 구토 상태, 급체 상태, 고통 상태 등 중 적어도 하나를 포함하지만 이에 한정되지 않는다.

선택적으로, 프롬프트 유닛은, 상기 사람의 울음 상태에 있는 시간이 제1 기설정 시간에 도달하는 것, 상기 사람의 화난 상태에 있는 시간이 제2 기설정 시간에 도달하는 것, 및 상기 사람의 고통 상태에 있는 시간이 제3 기설정 시간에 도달하는 것 중 적어도 하나에 응답하여, 프롬프트 정보를 출력하기 위한 것이다.

하나 또는 복수 개의 선택적인 실시예에서, 특징 추출 유닛(71)은, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 위한 것이며;

분류 유닛(72)은, 뉴럴 네트워크에서 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태의 분류를 각각 결정하기 위한 것이다.

본 출원의 실시예는 특징 추출 브랜치 및 적어도 두 개의 분류 브랜치를 포함한 뉴럴 네트워크를 통해 구현되며, 적어도 두 개의 분류 브랜치를 통해 적어도 두 개의 분류 결과(예를 들어, 어린이인지 여부 결과, 및 사람의 적어도 하나의 상태의 분류 결과)를 동시에 획득하며, 뉴럴 네트워크에서의 특징 추출 브랜치를 통해 얼굴 이미지에 대해 특징 추출을 수행하여, 복수 개의 분류 브랜치가 특징 추출을 각각 수행할 필요가 없으므로, 네트워크 처리 속도를 향상시킨다. 특징 추출 브랜치의 참여는, 네트워크를 보다 강건성 있도록 하고, 일반화 능력을 더욱 강하게 한다. 공유 파라미터로 인해, 얼굴 특징 추출 동작은 1 회만 수행될 필요가 있고, 이에 기반하여 어린이인지 여부 및 사람의 상태를 결정하여, 동일한 얼굴 특징으로 분류를 수행함으로써, 분류의 정확성를 향상시키고, 네트워크의 피드 포워드 속도를 향상시킨다.

분류 유닛(72)은, 뉴럴 네트워크에서 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 얼굴 상태의 분류를 각각 결정하고; 뉴럴 네트워크에서 적어도 두 개의 분류 브랜치에 연결된 통계 분류 브랜치를 통해, 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대응하는 사람의 적어도 하나의 얼굴 상태의 분류 결과에 대해 통계를 수행하여, 통계 결과에 기반하여 사람의 적어도 하나의 상태의 분류를 결정하기 위한 것이다.

단일 프레임 이미지를 통해 결정할 수 없는 일부 상태의 경우, 연속 멀티 프레임(상기 연속 멀티 프레임은 비디오에서 시간 상의 연속 프레임일 수 있거나, 비디오에서 간격을 갖는 멀티 프레임일 수 있음) 이미지의 얼굴 상태를 결합하여 결정해야 하며, 예를 들어, 정상 상태, 이상 상태, 수면 상태, 잠을 깬 상태 및 차일드 시트 이탈 상태 등이며, 따라서, 본 출원의 실시예는 통계 분류 브랜치를 결합하여, 멀티 프레임 이미지의 얼굴 상태에 대해 통계를 수행함으로써, 상기 사람의 제2 분류 결과를 결정한다.

선택적으로, 이미지에서의 사람이 어린이인지 여부를 결정하는 분류 브랜치 어린이의 성별을 구별하는 태그 데이터에 기반하여 미리 훈련됨으로써 완료된다.

샘플 이미지를 이용하여 뉴럴 네트워크에 대해 훈련을 수행함으로써, 샘플 이미지가 어린이의 태그 정보 및 상태 태그 정보를 갖기 위한 네트워크 훈련 유닛을 더 포함한다.

선택적으로, 어린이의 태그 정보는 샘플 이미지에서의 사람이 어린이인지 여부를 나타내고, 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 큰 것에 응답하여, 샘플 이미지의 어린이의 태그 정보는 어린이가 아님을 나타내며, 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 작거나 같은 것에 응답하여, 샘플 이미지의 어린이의 태그 정보는 어린이임을 나타낸다.

선택적으로, 네트워크훈련 유닛은, 특징 추출 브랜치를 이용하여 샘플 이미지에 대해 얼굴 특징 추출을 수행하고; 적어도 두 개의 분류 브랜치를 이용하여 추출된 얼굴 특징을 공유하여 샘플 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류함으로써, 샘플 이미지에서의 사람이 어린이인지 여부의 제1 예측 분류 결과 및 사람의 적어도 하나의 상태의 제2 예측 분류 결과를 획득하며; 제1 예측 분류 결과 및 어린이의 태그 정보에 기반하여 제1 손실을 획득하고, 제2 예측 분류 결과 및 상태 태그 정보에 기반하여 제2 손실을 획득하며; 제1 손실 및 제2 손실에 기반하여, 뉴럴 네트워크의 파라미터를 조정하기 위한 것이다.

선택적으로, 네트워크 훈련 유닛은 제1 손실 및 제2 손실에 기반하여, 뉴럴 네트워크의 파라미터를 조정할 때, 제1 손실 및 제2 손실에 대해 가중합산을 수행하여, 네트워크 손실을 획득하고; 네트워크 손실에 기반하여 특징 추출 브랜치 및 적어도 두 개의 분류 브랜치의 파라미터를 조정하기 위한 것이다.

획득된 비디오 스트림, 제1 분류 결과, 적어도 하나의 제2 분류 결과 및 프롬프트 정보 중 적어도 하나의 정보를 디스플레이하기 위한 차량 탑재 기기 및 단말 기기 중 적어도 하나를 더 포함한다.

비디오 스트림을 획득하기 위한 차량 내부에 설치된 적어도 하나의 카메라를 더 포함한다.

본 발명의 실시예에 의해 제공된 어린이의 상태 분석 장치의 임의의 실시예의 작업 과정, 설치 방식 및 상응한 기술적 효과는, 모두 본 발명의 상기 상응한 방법 실시예의 구체적인 설명을 참조할 수 있으며, 편폭의 제한으로, 여기서 더이상 반복하지 않는다.

본 출원의 실시예의 다른 측면에 따라 제공된 차량은, 상기 어느 한 실시예에 따른 어린이의 상태 분석 장치를 포함한다.

본 출원의 실시예의 또 다른 측면에 따라 제공된 전자 기기는, 프로세서를 포함하며, 상기 프로세서는 상기 어느 한 실시예에 따른 어린이의 상태 분석 장치를 포함한다.

본 출원의 실시예의 또 다른 측면에 따라 제공되는 전자 기기는, 실행 가능한 명령어를 저장하기 위한 메모리; 및

메모리와 통신하여 상기 실행 가능한 명령어를 실행함으로써 상기 어느 한 실시예에 따른 어린이의 상태 분석 방법의 동작을 완료하기 위한 프로세서를 포함한다.

본 출원의 실시예의 또 다른 측면에 따라 제공된 컴퓨터 저장 매체는, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 상기 명령어는 실행될 때 상기 어느 한 항에 따른 어린이의 상태 분석 방법의 단계를 실행한다.

본 출원의 실시예는 또한 이동 단말, 개인용 컴퓨터(PC), 태블릿, 서버와 같은 것일 수 있는 전자 기기를 제공한다. 도 8을 참조하면, 본 출원의 실시예에 따른 단말기기 또는 서버를 구현하기에 적합한 전자 기기(800)의 구조 모식도이며, 도 8에 도시된 바와 같이, 전자 기기(800)는 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는, 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(CPU)(801), 및 하나 또는 복수 개의 전용 프로세서 중 적어도 하나이며, 그래픽 처리 장치(GPU), FPGA, DSP 및 다른 ASIC 칩과 같은 전용 프로세서 등을 포함할 수 있는 전용 프로세서는 가속 유닛(813)으로 사용될 수 있으며, 프로세서는 판독 가능한 메모리(ROM)(802)에 저장된 실행 가능한 명령어 또는 저장 부분(808)으로부터 랜덤 액세스 메모리 (RAM)(803)에 로딩된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 처리를 수행할 수 있다. 통신부(812)는 인피니밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지 않는 네트워크 카드를 포함할 수 있지만 이에 한정되지 않는다.

프로세서는 판독 전용 메모리(802) 및 랜덤 액세스 메모리(803) 중 적어도 하나와 통신하여 실행 가능한 명령어를 실행할 수 있으며, 버스(804)를 통해 통신부(812)과 연결되고, 통신부(812)을 거쳐 다른 목표 기기와 통신함으로써, 본 출원의 실시예에 의해 제공된 임의의 방법에 대응하는 단계를 완료하며, 예를 들어, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하고; 추출된 얼굴 특징을 공유하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하며; 제1 분류 결과 및 제2 분류 결과를 출력한다.

또한, RAM(803)에는 장치의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(801), ROM(802) 및 RAM(803)은 통신 버스(804)를 통해 서로 연결된다. RAM(803)이 있는 경우, ROM(802)은 옵션 모듈이다. RAM(803)은 실행 가능 명령어를 저장하고, 또는 작동될 경우, ROM(802)에 실행 가능 명령어를 기록하며, 실행 가능 명령어는 중앙 처리 장치(801)로 하여금 상기 통신 방법에 대응하는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(805)도 버스(804)에 연결된다. 통신부(812)는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 네트워크 카드)을 갖도록 구성될 수 있다.

키보드, 마우스 등을 포함하는 입력 부분(806); 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분(807); 하드웨어 등을 포함하는 저장 부분(808); 및 LAN 카드, 모뎀 등 네트워크 인터페이스 카드를 포함하는 통신 부분(809) 등 구성 요소는 I/O 인터페이스(805)에 연결된다. 통신 부분(809)은 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다. 드라이버(810)는 또한 필요에 따라 I/O 인터페이스(805)에 연결된다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 탈착 가능한 매체(811)는 필요에 따라 저장 부분(808)에 장착된 컴퓨터 프로그램을 판독할 수 있도록 필요에 따라 드라이버(810)에 장착된다.

설명해야 할 것은, 도 8에 도시된 아키텍쳐는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 8의 구성 요소의 개수 및 유형은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수 있으며, 예를 들어 가속 유닛(813) 및 CPU(801)는 분리 설치되거나 가속 유닛(813)이 CPU(801)에 통합되며, 통신부는 CPU(801) 또는 가속 유닛(813)에 분리 설치 또는 통합 설치될 수 있는 등이다. 이러한 대안적인 실시형태는 모두 본 출원의 보호 범위에 속한다.

특히, 본 출원의 실시예에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현된다. 예를 들어, 본 출원의 실시예는 기계 판독 가능한 매체 상에 유형적으로 포함된 컴퓨터 프로그램 제품을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함하고, 프로그램 코드는 본 출원의 실시예에 의해 제공된 방법 단계를 실행하는 것에 대응하는 명령어를 포함할 수 있으며, 예를 들어, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하고; 추출된 얼굴 특징을 공유하여 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하며; 제1 분류 결과 및 제2 분류 결과를 출력한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(809)를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것 및 탈착 가능한 매체(811)로부터 설치될 수 있는 것 중 적어도 하나이다. 상기 컴퓨터 프로그램은 중앙 처리 장치(CPU)(801)에 의해 실행될 때, 본 출원의 방법에 정의된 상기 기능의 동작을 실행한다.

본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조될 수 있다. 시스템 실시예는 방법 실시예에 거의 대응되므로, 설명이 비교적 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조한다.

본 출원의 방법과 장치는 많은 방식으로 구현된다. 예를 들어, 본 출원의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 단계의 상기 순서는 다만 구체적인 설명을 위한 것이며, 본 출원의 방법의 단계는 상술한 구체적인 설명의 순서에 한정되지 않는다. 또한, 일부 실시예에 있어서, 본 출원은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 출원의 방법을 구현하기 위한 기계 판독 가능 명령어를 포함한다. 따라서, 본 출원은 본 출원에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.

본 출원의 설명은 예시 및 설명을 목적으로 제공되며, 누락된 부분이 없거나 본 출원을 개시된 형태로 한정하려는 것은 아니다. 많은 보정과 변경이 본 기술분야의 통상의 기술자에게 자명하다. 실시예를 선택하고 설명한 것은 본 출원의 원리 및 실제 적용을 더 잘 설명하기 위한 것이며, 본 기술분야의 통상의 기술자로 하여금 본 출원을 이해하여, 특정 사용에 적용 가능한 다양한 보정들을 갖는 다양한 실시예들을 설계하도록 한다.

Claims

어린이의 상태 분석 방법으로서,
획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계;
얼굴 특징에 따라 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 상기 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하는 단계; 및
상기 제1 분류 결과 및 상기 제2 분류 결과를 출력하는 것, 및 상기 제1 분류 결과 및 상기 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 적어도 하나를 수행하는 단계를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제1항에 있어서,
상기 제1 분류 결과가 상기 이미지에서의 사람이 어린이임을 나타내는 것에 응답하여, 상기 제2 분류 결과가 소정의 조건을 만족하는지 여부를 결정하는 단계; 및
제2 분류 결과가 상기 소정의 조건을 만족하는 것에 응답하여, 프롬프트 정보를 출력하는 단계를 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제1항 또는 제2항에 있어서,
상기 사람의 상태는 정상 상태, 이상 상태, 수면 상태, 잠을 깬 상태 및 차일드 시트 이탈 상태 중 적어도 하나를 포함하며;
상기 제2 분류 결과는 상기 사람의 상태가 정상 상태인지 여부, 상기 사람의 상태가 이상 상태인지 여부, 상기 사람의 상태가 수면 상태인지 여부, 상기 사람의 상태가 잠을 깬 상태인지 여부 및 상기 사람의 상태가 차일드 시트 이탈 상태인지 여부 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제3항에 있어서,
상기 이상 상태는 울음 상태, 화난 상태, 구토 상태, 급체 상태 및 고통 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제3항 또는 제4항에 있어서,
상기 소정의 조건은 상기 사람의 상태가 이상 상태인 것, 상기 사람의 상태가 잠을 깬 상태인 것, 및 상기 사람의 상태가 차일드 시트 이탈 상태인 것 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제5항에 있어서,
상기 제2 분류 결과가 상기 사람의 상태가 이상 상태인 것임을 만족하는 것에 응답하여, 프롬프트 정보를 출력하는 단계는,
상기 사람의 울음 상태에 있는 시간이 제1 기설정 시간에 도달하는 것, 상기 사람의 화난 상태에 있는 시간이 제2 기설정 시간에 도달하는 것, 및 상기 사람의 고통 상태에 있는 시간이 제3 기설정 시간에 도달하는 것 중 적어도 하나에 응답하여, 프롬프트 정보를 출력하는 단계를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계는, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계를 포함하고;
상기 얼굴 특징에 따라 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하는 단계는, 상기 뉴럴 네트워크에서 상기 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 상기 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태의 분류를 각각 결정하는 단계를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계는, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하는 단계를 포함하고;
상기 얼굴 특징에 따라 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하는 단계는, 상기 뉴럴 네트워크에서 상기 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 상기 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 얼굴 상태의 분류를 각각 결정하는 단계; 및
상기 뉴럴 네트워크에서 상기 적어도 두 개의 분류 브랜치에 연결된 통계 분류 브랜치를 통해, 상기 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대응하는 상기 사람의 적어도 하나의 얼굴 상태의 분류 결과에 대해 통계를 수행하여, 통계 결과에 기반하여 상기 사람의 적어도 하나의 상태의 분류를 결정하는 단계를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제8항에 있어서,
상기 사람의 얼굴 상태는 눈을 뜬 상태 및 눈을 감은 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 이미지에서의 사람이 어린이인지 여부를 결정하는 분류 브랜치는 어린이의 성별을 구별하는 태그 데이터에 기반하여 미리 훈련됨으로써 완료되는 것을 특징으로 하는 어린이의 상태 분석 방법.
제7항 내지 제10항 중 어느 한 항에 있어서,
상기 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 전에,
샘플 이미지를 이용하여 상기 뉴럴 네트워크에 대해 훈련을 수행하는 단계 - 상기 샘플 이미지가 어린이의 태그 정보 및 상태 태그 정보를 가짐 - 를 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제11항에 있어서,
상기 어린이의 태그 정보는 상기 샘플 이미지에서의 사람이 어린이인지 여부를 나타내고, 상기 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 큰 것에 응답하여, 상기 샘플 이미지의 어린이의 태그 정보는 어린이가 아님을 나타내며; 상기 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 작거나 같은 것에 응답하여, 상기 샘플 이미지의 어린이의 태그 정보는 어린이임을 나타내는 것을 특징으로 하는 어린이의 상태 분석 방법.
제12항에 있어서,
상기 참조 이미지는 남자 어린이의 참조 이미지 및 여자 어린이의 참조 이미지를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 샘플 이미지를 이용하여 상기 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
상기 특징 추출 브랜치를 이용하여 상기 샘플 이미지에 대해 얼굴 특징 추출을 수행하는 단계;
상기 적어도 두 개의 분류 브랜치를 이용하여 추출된 얼굴 특징을 공유하여 상기 샘플 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류함으로써, 샘플 이미지에서의 사람이 어린이인지 여부의 제1 예측 분류 결과 및 사람의 적어도 하나의 상태의 제2 예측 분류 결과를 획득하는 단계;
상기 제1 예측 분류 결과 및 상기 어린이의 태그 정보에 기반하여 제1 손실을 획득하고, 상기 제2 예측 분류 결과 및 상기 상태 태그 정보에 기반하여 제2 손실을 획득하는 단계; 및
상기 제1 손실 및 상기 제2 손실에 기반하여, 상기 뉴럴 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제14항에 있어서,
상기 제1 손실 및 상기 제2 손실에 기반하여, 상기 뉴럴 네트워크의 파라미터를 조정하는 단계는,
상기 제1 손실 및 상기 제2 손실에 대해 가중합산을 수행하여, 네트워크 손실을 획득하는 단계; 및
상기 네트워크 손실에 기반하여 상기 특징 추출 브랜치 및 상기 적어도 두 개의 분류 브랜치의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 어린이의 상태 분석 방법은,
차량 탑재 기기 및 단말 기기 중 적어도 하나를 통해 상기 획득된 비디오 스트림, 상기 제1 분류 결과, 상기 적어도 하나의 제2 분류 결과 및 상기 프롬프트 정보 중 적어도 하나의 정보를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
상기 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 전에,
차량 내부에 설치된 적어도 하나의 카메라를 통해 상기 비디오 스트림을 획득하는 단계를 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 방법.
어린이의 상태 분석 장치로서,
획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 위한 특징 추출 유닛;
얼굴 특징에 따라 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류하여, 상기 이미지에서의 사람이 어린이인지 여부의 제1 분류 결과 및 사람의 적어도 하나의 상태의 제2 분류 결과를 획득하기 위한 분류 유닛; 및
상기 제1 분류 결과 및 상기 제2 분류 결과를 출력하는 것, 및 상기 제1 분류 결과 및 상기 제2 분류 결과에 따라 프롬프트 정보를 출력하는 것 중 적어도 하나를 수행하기 위한 결과 출력 유닛을 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제18항에 있어서,
상기 제1 분류 결과가 상기 이미지에서의 사람이 어린이임을 나타내는 것에 응답하여, 상기 제2 분류 결과가 소정의 조건을 만족하는지 여부를 결정하기 위한 어린이 결정 유닛; 및
제2 분류 결과가 상기 소정의 조건을 만족하는 것에 응답하여, 프롬프트 정보를 출력하기 위한 프롬프트 유닛을 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제18항 또는 제19항에 있어서,
상기 사람의 상태는 정상 상태, 이상 상태, 수면 상태, 잠을 깬 상태 및 차일드 시트 이탈 상태 중 적어도 하나를 포함하며;
상기 제2 분류 결과는 상기 사람의 상태가 정상 상태인지 여부, 상기 사람의 상태가 이상 상태인지 여부, 상기 사람의 상태가 수면 상태인지 여부, 상기 사람의 상태가 잠을 깬 상태인지 여부 및 상기 사람의 상태가 차일드 시트 이탈 상태인지 여부 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제20항에 있어서,
상기 이상 상태는 울음 상태, 화난 상태, 구토 상태, 급체 상태 및 고통 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제20항 또는 제21항에 있어서,
상기 소정의 조건은 상기 사람의 상태가 이상 상태인 것, 상기 사람의 상태가 잠을 깬 상태인 것, 및 상기 사람의 상태가 차일드 시트 이탈 상태인 것 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제22항에 있어서,
상기 프롬프트 유닛은, 상기 사람의 울음 상태에 있는 시간이 제1 기설정 시간에 도달하는 것, 상기 사람의 화난 상태에 있는 시간이 제2 기설정 시간에 도달하는 것, 및 상기 사람의 고통 상태에 있는 시간이 제3 기설정 시간에 도달하는 것 중 적어도 하나에 응답하여, 프롬프트 정보를 출력하기 위한 것임을 특징으로 하는 어린이의 상태 분석 장치.
제18항 내지 제23항 중 어느 한 항에 있어서,
상기 특징 추출 유닛은, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 위한 것이며;
상기 분류 유닛은, 상기 뉴럴 네트워크에서 상기 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 상기 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태의 분류를 각각 결정하기 위한 것임을 특징으로 하는 어린이의 상태 분석 장치.
제18항 내지 제23항 중 어느 한 항에 있어서,
상기 특징 추출 유닛은, 뉴럴 네트워크의 특징 추출 브랜치를 통해, 획득된 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대해 얼굴 특징 추출을 수행하기 위한 것이며;
상기 분류 유닛은, 상기 뉴럴 네트워크에서 상기 특징 추출 브랜치에 연결된 적어도 두 개의 분류 브랜치를 통해, 상기 특징 추출 브랜치에 의해 추출된 얼굴 특징에 기반하여 상기 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 얼굴 상태의 분류를 각각 결정하고; 상기 뉴럴 네트워크에서 상기 적어도 두 개의 분류 브랜치에 연결된 통계 분류 브랜치를 통해, 상기 비디오 스트림에서의 적어도 하나의 프레임 이미지에 대응하는 상기 사람의 적어도 하나의 얼굴 상태의 분류 결과에 대해 통계를 수행하여, 통계 결과에 기반하여 상기 사람의 적어도 하나의 상태의 분류를 결정하기 위한 것임을 특징으로 하는 어린이의 상태 분석 장치.
제25항에 있어서,
상기 사람의 얼굴 상태는 눈을 뜬 상태 및 눈을 감은 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제24항 내지 제26항 중 어느 한 항에 있어서,
상기 이미지에서의 사람이 어린이인지 여부를 결정하는 분류 브랜치는 어린이의 성별을 구별하는 태그 데이터에 기반하여 미리 훈련되어 완료되는 것을 특징으로 하는 어린이의 상태 분석 장치.
제24항 내지 제27항 중 어느 한 항에 있어서,
상기 어린이의 상태 분석 장치는,
샘플 이미지를 이용하여 상기 뉴럴 네트워크에 대해 훈련을 수행함으로써, 상기 샘플 이미지가 어린이의 태그 정보 및 상태 태그 정보를 갖기 위한 네트워크 훈련 유닛을 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제28항에 있어서,
상기 어린이의 태그 정보는 상기 샘플 이미지에서의 사람이 어린이인지 여부를 나타내고, 상기 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 큰 것에 응답하여, 상기 샘플 이미지의 어린이의 태그 정보는 어린이가 아님을 나타내며; 상기 샘플 이미지에서의 사람의 연령 또는 추정 연령이 참조 이미지에서의 사람의 연령 또는 추정 연령보다 작거나 같은 것에 응답하여, 상기 샘플 이미지의 어린이의 태그 정보는 어린이임을 나타내는 것을 특징으로 하는 어린이의 상태 분석 장치.
제29항에 있어서,
상기 참조 이미지는 남자 어린이의 참조 이미지 및 여자 어린이의 참조 이미지를 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제28항 내지 제30항 중 어느 한 항에 있어서,
상기 네트워크 훈련 유닛은, 상기 특징 추출 브랜치를 이용하여 상기 샘플 이미지에 대해 얼굴 특징 추출을 수행하고; 상기 적어도 두 개의 분류 브랜치를 이용하여 추출된 얼굴 특징을 공유하여 상기 샘플 이미지에서의 사람이 어린이인지 여부 및 사람의 적어도 하나의 상태를 분류함으로써, 샘플 이미지에서의 사람이 어린이인지 여부의 제1 예측 분류 결과 및 사람의 적어도 하나의 상태의 제2 예측 분류 결과를 획득하며; 상기 제1 예측 분류 결과 및 상기 어린이의 태그 정보에 기반하여 제1 손실을 획득하고, 상기 제2 예측 분류 결과 및 상기 상태 태그 정보에 기반하여 제2 손실을 획득하며; 상기 제1 손실 및 상기 제2 손실에 기반하여, 상기 뉴럴 네트워크의 파라미터를 조정하기 위한 것임을 특징으로 하는 어린이의 상태 분석 장치.
제31항에 있어서,
상기 네트워크 훈련 유닛은 상기 제1 손실 및 상기 제2 손실에 기반하여, 상기 뉴럴 네트워크의 파라미터를 조정할 때, 상기 제1 손실 및 상기 제2 손실에 대해 가중합산을 수행하여, 네트워크 손실을 획득하고; 상기 네트워크 손실에 기반하여 상기 특징 추출 브랜치 및 상기 적어도 두 개의 분류 브랜치의 파라미터를 조정하기 위한 것임을 특징으로 하는 어린이의 상태 분석 장치.
제18항 내지 제32항 중 어느 한 항에 있어서,
상기 어린이의 상태 분석 장치는,
상기 획득된 비디오 스트림, 상기 제1 분류 결과, 상기 적어도 하나의 제2 분류 결과 및 상기 프롬프트 정보 중 적어도 하나의 정보를 디스플레이하기 위한 차량 탑재 기기 및 단말 기기 중 적어도 하나를 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
제18항 내지 제33항 중 어느 한 항에 있어서,
상기 어린이의 상태 분석 장치는,
상기 비디오 스트림을 획득하기 위한 차량 내부에 설치된 적어도 하나의 카메라를 더 포함하는 것을 특징으로 하는 어린이의 상태 분석 장치.
차량으로서,
제18항 내지 제34항 중 어느 한 항에 따른 어린이의 상태 분석 장치를 포함하는 것을 특징으로 하는 차량.
전자 기기로서,
프로세서를 포함하며, 상기 프로세서는 제18항 내지 제34항 중 어느 한 항에 따른 어린이의 상태 분석 장치를 포함하는 것을 특징으로 하는 전자 기기.
전자 기기로서,
실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 메모리와 통신하여 상기 실행 가능한 명령어를 실행함으로써 제1항 내지 제17항 중 어느 한 항에 따른 어린이의 상태 분석 방법을 완료하기 위한 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체로서,
상기 명령어가 실행될 때 제1항 내지 제17항 중 어느 한 항에 따른 어린이의 상태 분석 방법의 단계를 실행하는 것을 특징으로 하는 컴퓨터 저장 매체.
컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 판독 가능한 코드가 기기에서 작동될 때, 상기 기기에서의 프로세서는 제1항 내지 제17항 중 어느 한 항에 따른 어린이의 상태 분석 방법을 구현하기 위한 명령어를 실행하는 것을 특징으로 하는 컴퓨터 프로그램 제품.