KR20230134348A

KR20230134348A - 생체 신호 기반의 동작 제어를 위한 전자 장치 및 그 동작 방법

Info

Publication number: KR20230134348A
Application number: KR1020220031587A
Authority: KR
Inventors: 예브헤니 야키쉰; 미카일로 즐로트니크; 올렉산드르 쉬츄르
Original assignee: 삼성전자주식회사
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-21
Also published as: WO2023177125A1

Abstract

다양한 실시 예에 따르면, 전자 장치는, 카메라 및 적어도 하나의 프로세서를 포함하고, 상기 카메라를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하고, 상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득하고, 상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하고, 상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별하고, 상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하도록 설정될 수 있다. 그 밖에 다양한 실시 예가 제공될 수 있다.

Description

생체 신호 기반의 동작 제어를 위한 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE FOR CONTROLLING OPERATION BASED ON A BIO-SIGNAL AND OPERATING METHOD THEREOF}

다양한 실시 예는 생체 신호 기반의 동작 제어를 위한 전자 장치 및 그 동작 방법에 관한 것이다.

스마트 폰(smart phone)과 같은 전자 장치가 점차 고성능화됨에 따라 전자 장치를 이용한 다양한 서비스들이 제공되고 있다. 키보드를 이용한 전통적인 입력 방식에 부가하여, 음성 입력과 같은 다양한 입력 방식을 지원할 수 있다. 예를 들어, 전자 장치는 음성 인식 서비스가 실행된 상태에서 사용자의 음성을 인식하고, 음성 입력에 대응되는 동작을 실행하거나 검색 결과를 제공할 수 있다. 게다가 디스플레이 및 카메라를 탑재한 인공지능 기기들도 음성 입출력뿐만 아니라 다양한 입출력이 가능한 멀티모달(multimodal) 기기로 진화함에 따라 향상된 사용자 경험 및 새로운 사용자 경험을 제공하는 서비스가 출현되고 있다.

예를 들어, 멀티모달 인터페이스는 인간과 기계의 통신을 위해 음성, 키보드, 또는 펜과 같은 입출력을 이용해 인터페이스하는 방법을 의미할 수 있다. 따라서 카메라 및 다양한 센서를 통한 멀티모달 인터페이스는 유연하고 능동적인 서비스를 제공할 것으로 기대되고 있다.

한편, 전자 장치의 사용자는 다양한 서비스들을 이용할 수 있게 되었지만 이와 동시에 다양한 프라이버시 및 보안 이슈들이 대두되고 있다. 또한, 전자 장치의 기능이 다양화됨에 따라 보안성 강화를 위한 사용자 인증에 대한 중요성이 증대되고 있다. 사용자 인증에는 다양한 방식이 사용될 수 있는데, 생체 인식은 보안 인증의 일 예로, 사용자의 지문, 얼굴, 혈관과 같은 고유의 신체적 특징을 이용하여 사용자 인증을 수행하는 기술이다. 이러한 생체 인식을 이용한 기술 분야는 도용 또는 모방의 위험성이 적고, 사용 편의성이 높다.

예를 들어, 전자 장치는 상기 멀티모달 인터페이스를 통한 멀티 모달 정보가 입력된 경우 이러한 각각의 모달리티에서 입력된 정보를 각각 융합하여 분석하는 방법이 사용될 수 있는데, 이러한 멀티모달 인터페이스를 이용하는 경우 사용자를 식별하여 전자 장치에 대한 보안 액세스를 제공할 필요가 있다.

본 개시의 다양한 실시 예에 따르면, 멀티모달 인터페이스를 이용하는 사용자에 의한 전자 장치의 동작을 제어하기 위한 접근 권한을 관리할 수 있도록 하는, 생체 신호 기반의 동작 제어를 위한 전자 장치 및 그 동작 방법을 제공하고자 한다.

본 개시에서 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

다양한 실시 예에 따르면, 전자 장치는, 카메라 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 카메라를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하고, 상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득하고, 상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하고, 상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별하고, 상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하도록 설정될 수 있다.

다양한 실시 예에 따르면, 전자 장치에서 생체 신호 기반의 동작 제어를 위한 방법은, 카메라를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하는 동작, 상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득하는 동작, 상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하는 동작, 상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별하는 동작 및 상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하는 동작을 포함할 수 있다.

다양한 실시 예에 따르면, 멀티모달 인터페이스를 이용하는 사용자에 의한 전자 장치의 동작을 제어하기 위한 전자 장치의 접근 권한을 제공할 수 있어, 전자 장치에 대한 보안 액세스를 제공할 수 있다.

다양한 실시 예에 따르면, 촬영 영상에서 사용자와 관련된 생체 신호를 인식함으로써 사용자를 식별(또는 인증)하여 식별된 사용자에 대해서만 전자 장치의 동작 제어가 가능하도록 함으로써, 전자 장치에 대한 향상된 보안 액세스를 제공할 수 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 다양한 실시 예에 따른 네트워크 환경 내의 전자 장치의 블럭도이다.
도 2는 다양한 실시 예에 따른 전자 장치의 사시도이다.
도 3은 다양한 실시예에 따른 전자 장치의 블록 구성도이다.
도 4는 다양한 실시예에 따른 전자 장치에서의 동작 흐름도이다.
도 5a는 다양한 실시 예에 따른 생체 신호 모니터링 및 분석을 통한 멀티모달 명령어로 처리하는 방법을 설명하기 위한 도면이다.
도 5b는 상기 도 5a에 이어지는 도면이다.
도 6a는 다양한 실시 예에 따른 복수의 사용자가 존재하는 환경에서의 사용자 식별 방법을 설명하기 위한 예시도이다.
도 6b는 상기 도 6a에서의 손과 얼굴 매칭을 통한 사용자 식별 방법을 설명하기 위한 예시도이다.
도 7은 다양한 실시 예에 따른 얼굴에 대한 rPPG 신호 추출 방법을 설명하기 위한 예시도이다.
도 8은 다양한 실시 예에 따른 손에 대한 rPPG 신호 추출 방법을 설명하기 위한 예시도이다.
도 9a는 다양한 실시 예에 따른 심박수(HR) 산출 방법을 설명하기 위한 도면이다.
도 9b는 다양한 실시 예에 따른 산소포화도(SpO2) 산출 방법을 설명하기 위한 도면이다.
도 10은 일반적인 스켈레톤(skeleton) 기반 인식 방법과 생체 신호 기반의 인식 방법을 비교 설명하기 위한 예시도이다.
도 11은 다양한 실시 예에 따른 접속 권한이 있는 사용자의 멀티모달 입력에 따른 처리 결과를 나타낸 예시도이다.
도 12는 다양한 실시 예에 따른 생체 신호의 추가적인 파라미터를 이용한 명령어 처리 결과를 나타낸 예시도이다.
도 13은 다양한 실시 예에 따른 복수의 사용자가 존재하는 환경에서의 얼굴 및 손과 관련한 생체 신호 중 적어도 하나를 이용한 사용자 인증 방법을 설명하기 위한 예시도이다.
도 14는 상기 도 13에서의 손과 얼굴 매칭이 가능한 경우와 가능하지 않은 경우의 사용자 인증 방법을 설명하기 위한 예시도이다.
도면의 설명과 관련하여, 동일 또는 유사한 구성 요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.

도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.

프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.

보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.

메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.

프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.

입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.

음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.

디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.

오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.

센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.

인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.

카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.

전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.

배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.

무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제 2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.

안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.

다양한 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제 1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제 2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.

상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.

일실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제 2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.

도 2는 다양한 실시 예에 따른 전자 장치의 사시도이다.

도 2를 참조하면, 전자 장치(200)(예: 도 1의 전자 장치(101))는 로봇의 형태로 구현될 수 있다. 전자 장치(200)는 헤드(head)부(210) 및 바디(body)부(220)를 포함할 수 있다. 헤드부(210)는 바디부(220)의 상측에 배치될 수 있다. 헤드부(210) 및 바디부(220)는, 일 실시 예에서 사람의 헤드와 바디에 대응되는 형상으로 구현될 수 있다. 다양한 실시예에 따르면 헤드부(210) 및 바디부(220) 중 적어도 일부에 전면 커버(211), 디스플레이(212), 카메라(216)를 포함할 수 있다.

도 2를 참조하면, 전면 커버(211)는 사람의 얼굴의 형상에 대응되도록 하는 위치에 배치될 수 있으며, 투명 재질 또는 반투명 재질로 구성될 수 있다. 전면 커버(211)는 임의의 화면을 표시할 수 있는 소자일 수도 있으며, 이 경우에 전면 커버(211) 및 디스플레이(212)는 하나의 하드웨어로 구현될 수도 있다. 전면 커버(211)는 사용자와 인터랙션하는 방향을 나타내는 곳으로서, 이미지 센싱을 위한 적어도 하나 이상의 다양한 센서와, 기구적인 눈 구조, 화면 출력을 위한 디스플레이일 수 있으며, 방향 구분이 되지 않는 형태에서는 불빛 또는 일시적인 기구 변경을 통하여 표시할 수도 있고, 사용자와 인터랙션 할 때 사용자 방향으로 향하는 적어도 하나 이상의 H/W 또는 기구 구조를 포함할 수 있다.

디스플레이(212)는 전면 커버(211)에 대응되도록 전면 커버(211)의 내측에 배치될 수 있다. 디스플레이(212)는, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다.

카메라(216)는 외부 환경을 촬영할 수 있다. 전자 장치(200)는 카메라(216)를 통해 획득된 적어도 하나의 이미지를 이용하여 사용자 또는 다른 전자 장치를 식별할 수 있다. 일 실시예에 따르면 전자 장치(200)는 카메라(216)를 통해 획득된 적어도 하나의 이미지에 기초하여, 사용자의 신체 일부를 검출할 수 있고, 검출된 신체를 인식할 수 있다. 예를 들면, 전자 장치(200)는 사용자의 얼굴, 손과 같은 신체를 검출할 수 있고, 검출된 얼굴, 손의 사용자가 누구인지 식별할 수 있다. 일 실시예에 따르면 전자 장치(200)는 적어도 하나의 사용자의 위치 또는 움직임을 식별하거나 다른 전자 장치들의 상대적인 위치 또는 움직임을 식별할 수 있다. 다양한 실시예에 따르면, 카메라(216)는 사용자의 얼굴을 따라가며 촬영하는 얼굴 트래킹(face tracking)을 수행할 수도 있다. 또한, 카메라(216)는 얼굴뿐만 아니라 사용자 제스처를 식별하기 위해 사용자의 손을 따라가며 촬영하는 트래킹을 수행할 수도 있다.

다양한 실시 예에 따르면, 전자 장치(200)는 상기 구성부 이외에 도 1의 구성부들 중 적어도 일부를 더 포함할 수 있다. 예를 들어, 전자 장치(200)는 음성 신호를 수신하는 적어도 하나의 마이크 및 전자 장치(200)에서 생성된 데이터에 대응된 소리를 출력하는 스피커를 포함할 수 있다. 다양한 실시 예에 따르면, 헤드부(210) 및 바디부(220)의 적어도 일부는 상기 마이크, 상기 스피커 이외에도 센서, 통신 인터페이스, 메모리, 프로세서를 더 포함할 수 있다.

다양한 실시예에 따르면 전자 장치(200)가 로봇 형태로 구현된다는 것은 단순히 예시적인 것이며, 그 구현 형태에는 제한이 없다. 예를 들어, 전자 장치(200)는 로봇 하나의 개체로 형성되는 스탠드얼론(Standalone) 타입으로 구현될 수 있다. 전자 장치(200)는 태블릿 PC 또는 스마트폰을 고정시키는 도킹 스테이션(docking station) 타입으로 구현될 수도 있다. 또한, 전자 장치(200)는 이동성 여부에 따라서 고정/이동형 타입으로 구분될 수도 있다.

도 3은 다양한 실시예에 따른 전자 장치의 블록 구성도이다.

도 3을 참조하면, 다양한 실시 예에 따른 전자 장치(300)(예: 도 1의 전자 장치(101), 도 2의 전자 장치(200))는, 프로세서(320)(예: 도 1의 프로세서(120)), 메모리(330)(예: 도 1의 메모리(130)), 디스플레이(360)(예: 도 1의 디스플레이(160)), 카메라(380)(예: 도 1의 카메라 모듈(180)) 및 통신 인터페이스(390)(예: 도 1의 통신 모듈(190))를 포함할 수 있다. 여기서, 도 3에 도시된 모든 구성 요소가 전자 장치(300)의 필수 구성 요소인 것은 아니며, 도 3에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 전자 장치(300)가 구현될 수도 있다.

메모리(330)는, 실행 시에, 프로세서(320)가 각종 동작들을 수행하도록 제어하는 인스트럭션들을 저장할 수 있다. 메모리(330)는, 전자 장치(300)의 제어를 위한 제어 프로그램, 제조사에서 제공되거나 외부로부터 다운로드 받은 어플리케이션과 관련된 UI 및 UI를 제공하기 위한 이미지들, 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.

일 실시 예에 따르면, 메모리(330)는 카메라(380)를 통해 입력된 영상(또는 영상 프레임)에서 적어도 하나의 사용자를 감지하거나 인식하는데 필요한 알고리즘 또는 데이터를 저장할 수 있다.

일 실시 예에 따르면, 메모리(330)는, 멀티모달 명령에 대한 접속 권한이 있는 사용자에 대한 정보를 저장할 수 있다. 여기서, 상기 사용자에 대한 정보는, 전자 장치(300)에 대한 접근 권한이 허가된 사용자의 식별 정보를 포함할 수 있다. 예를 들어, 상기 사용자의 식별 정보는 사용자의 얼굴, 손과 같은 고유의 신체적 특징을 이용한 사용자 생체 정보를 포함할 수 있다. 예를 들어, 사용자 식별을 위해 사용자의 얼굴 및 사용자의 손에 대한 생체 정보를 이용함으로써 사용자 식별이 가능하지만, 만일 얼굴과 손 중 어느 하나의 생체 정보만 획득된 경우에도 사용자 식별이 가능하도록 메모리(330)에는 상기 사용자에 대한 생체 정보를 미리 저장(또는 등록)해놓을 수 있다.

일 실시 예에 따르면, 메모리(330)는 전자 장치(300)의 동작 제어를 위한 복수의 미리 정의된 동작들을 저장할 수 있다. 일 실시 예에 따르면, 사용자는 적어도 하나의 마이크를 통해 전자 장치(300)의 미리 정의된 기능을 실행시키기 위한 음성(또는 음성 명령)을 입력할 수 있다.

일 실시 예에 따르면, 사용자는 전자 장치(300)의 미리 정의된 기능을 실행시키기 위해 상기 음성 이외에 특정한 동작(또는 제스처)을 수행할 수 있으며, 사용자의 제스처에 의해 발생되는 생체 신호의 기준 신호 패턴은 별도의 등록 과정에 의해 등록될 수 있고, 등록된 사용자 제스처의 개수에 따라 미리 정의된 동작은 하나 또는 복수 개일 수 있다. 일 실시 예에 따르면, 기준 신호 패턴의 등록 과정은 사용자가 제어하고자 하는 전자 장치(300)의 기능 종류를 결정하고, 결정된 기능 종류에 대응하는 사용자의 신호 패턴을 등록하는 과정을 포함할 수 있다.

일 실시 예에 따르면, 메모리(330)는 사용자 음성 또는 사용자 제스처를 인식하는데 필요한 정보를 저장할 수 있다. 예를 들어, 메모리(330)는 카메라(380)를 통해 획득된 영상으로부터의 생체 신호 패턴에 대응하여 사용자 제스처를 인식할 수 있으며, 인식된 사용자 제스처를 멀티모달 명령으로 처리하는데 필요한 정보를 저장할 수 있다.

디스플레이(360)는 터치 스크린을 포함할 수 있으며, 프로세서(320)에 의해 생성된 다양한 표시 데이터를 화면 상에 표시할 수 있다.

카메라(380)는 외부 환경을 촬영할 수 있다. 카메라(380)는 촬영된 영상(또는 영상 프레임)을 프로세서(320)로 제공할 수 있다. 일 실시 예에 따르면, 촬영 영상은 동영상을 포함할 수 있다.

통신 인터페이스(390)는 송신 장치(예: 도 1의 전자 장치(102), 전자 장치(104), 또는 서버(108))로부터 다양한 데이터를 수신할 수 있으며, 수신 장치(예: 도 1의 전자 장치(102), 전자 장치(104), 또는 서버(108))에 전자 장치(300)에서 생성된 데이터를 송신할 수도 있다.

프로세서(320)는 카메라(380)를 통해 촬영 영상(예: 비디오)을 획득할 수 있다. 예를 들어, 프로세서(320)는 카메라(380)를 통해 순차적으로 복수의 영상 프레임을 획득할 수 있다.

다양한 실시 예에 따르면, 프로세서(320)는 촬영 영상으로부터 적어도 하나의 사용자에 대한 생체 신호를 획득할 수 있다. 일 실시 예에 따르면, 프로세서(320)는 촬영 영상에서 얼굴과 손을 검출하기 위한 관심 영역(ROI: region of interest)들을 설정할 수 있으며, 관심 영역들(예: 얼굴 영역과 손 영역) 내에서 얼굴 및 손을 검출할 수 있다.

일 실시 예에 따르면, 프로세서(320)는 카메라(380)를 통해 사용자의 참조 신체 부분 예컨대, 사용자의 얼굴과 함께 사용자의 손을 촬영(또는 캡처)한 영상을 수신할 수 있다. 또한, 다수의 사용자들이 있는 경우에는 프로세서(320)는 카메라(380)를 통해 복수의 얼굴과 손을 촬영할 수 있다.

프로세서(320)는 촬영 영상으로부터 상기 관심 영역들에 대해 비접촉 광혈류측정(또는 비접촉 광용적맥파)(예: rPPG(remote photo-plethysmography) 방법을 이용하여 생체 신호(예: PPG 신호)를 추출할 수 있다. 따라서 프로세서(320)는 적어도 하나의 얼굴 영역 및 손 영역 각각으로부터 생체 신호를 획득할 수 있다. 프로세서(320)는 획득된 생체 신호들을 이용하여 상기 촬영 영상 내에서 얼굴 영역과 손 영역을 한 쌍으로 매칭시킬 수 있다. 예를 들어, 다수의 사용자가 존재하는 환경에서 북수의 얼굴 영역 및 손 영역들이 검출되는 경우, 각 영역에서의 생체 신호에 기반하여, 동일 사용자에 대한 얼굴과 손을 한 쌍으로 매칭시킬 수 있다.

일 실시 예에 따르면, 프로세서(320)는 얼굴 영역에 대한 생체 신호와 손 영역에 대한 생체 신호 간의 상관(correlation) 관계를 비교하여, 한 쌍의 얼굴 및 손을 매칭한 결과를 획득할 수 있다. 예를 들어, 프로세서(320)는 얼굴 영역에서의 생체 신호의 패턴과 손 영역에서의 생체 신호의 패턴을 비교할 수 있으며, 비교 결과에 기반하여 한 쌍의 얼굴 영역과 손 영역을 매칭할 수 있다. 동일 사용자의 경우 얼굴 영역에서의 생체 신호와 손 영역에서의 생체 신호의 출력은 유사한 특성을 가질 수 있다. 따라서, 프로세서(320)는 얼굴 영역에서의 생체 신호의 패턴과 손 영역에서의 생체 신호의 패턴이 임계 범위 이내로 유사할 경우, 상기 얼굴 영역과 상기 손 영역을 한 쌍으로 매칭할 수 있다.

일 실시 예에 따르면, 프로세서(320)는 얼굴 영역 내 입술 영역을 식별할 수 있으며, 입술 영역에서의 생체 신호에 기반하여 촬영 영상 내에서 발화 사용자를 식별할 수 있다. 또한, 프로세서(320)는 발화 사용자의 제스처를 식별하고, 제스처별로 지정된 동작들 중 발화 사용자의 제스처와 연관되어 지정된 동작을 수행할 수 있다. 사용자의 제스처는, 예를 들어, 손바닥 들기, 손가락 포인팅과 같은 손 제스처일 수 있다.

이와 같이 둘 이상의 사용자가 존재하는 환경일지라도 동일한 신호 패턴을 가지는 얼굴 영역과 손 영역을 매칭할 수 있으며, 한 쌍의 얼굴 및 손을 이용하여 사용자의 발화 및 제스처를 동기화하기 위한 멀티모달 명령으로 사용할 수 있다. 예를 들어, 사용자가 음성 명령과 제스처를 동시에 수행할 경우, 프로세서(320)는 상기 음성 명령과 제스처에 대응하는 멀티모달 명령을 결정할 수 있으며, 멀티모달 명령이 지시하는 전자 장치(300)의 기능을 수행하기 위한 신호를 처리할 수 있다.

또한, 프로세서(320)는 생체 신호들을 기 저장된 인공지능 알고리즘을 이용하여 기계 학습 및 분석함에 따라 다양한 환경에서 상기 생체 신호를 기반으로 사용자의 현재 상태를 측정 및 분석한 결과를 전자 장치(300)의 동작 제어에 반영할 수 있다. 따라서, 멀티모달 명령에 대응하여 전자 장치(300)에서 동작 수행 시, 사용자의 현재 상태에 대응하는 서비스 지원이 가능할 수 있다.

일 실시 예에 따르면, 사용자가 특정한 동작(또는 제스처)을 수행했을 때 나타나는 생체 신호의 변화가 손 영역에서 출력될 수 있다. 예를 들어, 생체 신호의 변화는 사용자의 동작을 인식하는데 이용될 수 있다. 따라서 사용자의 동작을 인식하는데 이용되는 손과 매칭되는 얼굴을 찾은 후, 얼굴 인식을 통해 사용자 식별(또는 인증)을 한다면, 식별된 사용자의 손에 의한 전자 장치(300)의 동작을 제어할 수 있다. 프로세서(320)는 손 영역에서의 생체 신호에 기반하여 촬영 영상 내에서 사용자의 동작(또는 제스처)를 식별하고, 상기 사용자의 동작에 대응하는 전자 장치(300)의 동작을 제어하기 위한 명령을 식별할 수 있다. 이에 따라 한 쌍의 얼굴 및 손에 대한 생체 신호에 기반하여, 인증된 사용자에 의한 전자 장치(300)의 접근이 가능할 수 있다.

일 실시 예에 따르면, 프로세서(320)는 촬영 영상(또는 영상 프레임)으로부터 얼굴 인식 방법에 기반하여 사용자의 얼굴을 검출할 수 있고, 검출된 얼굴을 인식할 수 있다. 일 실시예에 따르면, 프로세서(320)는 카메라(380)을 통해 획득된 적어도 하나의 영상에 기반하여 얼굴을 검출하고 얼굴 트래킹(face tracking)을 수행할 수 있고, 얼굴 트래킹을 수행하면서 얼굴 인식을 수행할 수 있다. 예를 들면, 얼굴 인식은 검출된 얼굴의 사용자를 식별하는 것일 수 있다. 예를 들면, 프로세서(320))는 메모리(330)에 저장된 적어도 하나의 사용자 얼굴 데이터를 이용하여 검출된 얼굴의 사용자를 식별할 수 있다.

상기한 바와 같이 얼굴 인식을 통해 사용자 식별(또는 사용자 인증)이 가능하므로, 식별된 사용자에 대한 얼굴 영역과 매칭되는 손 영역에서의 생체 신호도 인증된 것으로 간주될 수 있다. 예를 들어, 사용자 인증된 얼굴 영역의 생체 신호는 얼굴 인식을 통해 식별된 사용자 정보로 서명될 수 있다. 다르게는 얼굴 인식을 통해 사용자 식별 후 디지털 서명을 생성하고, 생성된 디지털 서명은 얼굴과 관련한 생체 신호를 서명하는데 이용될 수도 있다. 상기한 바와 같이 둘 이상의 사용자가 존재하는 환경의 경우 생체 신호의 분석을 통해 촬영 영상에서 각 사용자에 대한 얼굴과 손을 매칭할 수 있어, 발화(또는 입술 움직임)와 손(또는 제스처)을 서로 연관지을 수 있어, 사용자들 중 발화 사용자에 의한 제스처를 통해 전자 장치(300)의 동작 제어가 가능할 수 있다.

다양한 실시 예에 따르면, 전자 장치(300)는, 카메라(380) 및 적어도 하나의 프로세서(320)를 포함하고, 상기 적어도 하나의 프로세서(320)는, 상기 카메라(380)를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하고, 상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득하고, 상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하고, 상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별하고, 상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 생체 신호는, 비접촉 광혈류측정 방법을 통해 획득한 PPG(photo-plethysmography) 신호를 포함할 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴을 비교하고, 상기 비교 결과에 기반하여, 상기 적어도 하나의 얼굴 영역 및 상기 적어도 하나의 손 영역 중에서 한 쌍의 얼굴 영역과 손 영역을 매칭하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴이 임계 범위 이내로 유사할 경우, 상기 얼굴 영역과 상기 손 영역을 한 쌍으로 매칭하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 손 영역에서의 생체 신호에 기반하여, 상기 영상 내에서의 사용자 제스처를 식별하고, 상기 사용자 제스처에 대응하는 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 PPG 신호에 기반하여, 심박수 및 산소포화도 중 적어도 하나를 획득하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 얼굴 인식을 수행함으로써 상기 사용자를 식별한 후, 상기 사용자 식별 결과를 상기 적어도 하나의 얼굴 영역에서의 생체 신호와 연관시키도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 카메라를 통해 촬영되는 영상에서 관심 영역을 설정하고, 상기 관심 영역 내에서 상기 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 카메라를 통해 복수의 사용자를 촬영하는 경우, 상기 적어도 하나의 얼굴 영역 내 입술 영역을 식별하고, 상기 입술 영역에서의 생체 신호에 기반하여 상기 영상 내에서 발화 사용자를 식별하도록 설정될 수 있다.

다양한 실시 예에 따르면, 상기 적어도 하나의 프로세서는, 상기 영상 내에서의 발화 사용자 제스처를 식별하고, 제스처별로 지정된 동작들 중 상기 발화 사용자의 제스처와 연관되어 지정된 동작을 수행하도록 설정될 수 있다.

도 4는 다양한 실시예에 따른 전자 장치에서의 동작 흐름도이다.

도 4를 참조하면, 동작 방법은 405 동작 내지 425 동작을 포함할 수 있다. 도 4의 동작 방법의 각 단계/동작은, 전자 장치(예: 도 1의 전자 장치(101), 도 2의 전자 장치(200)), 도 3의 전자 장치(300)), 전자 장치의 적어도 하나의 프로세서(예: 도 1의 프로세서(120) 또는 도 3의 프로세서(320)) 중 적어도 하나)에 의해 수행될 수 있다. 한 실시 예에서, 405 동작 내지 425 동작들 중 적어도 하나가 생략되거나, 일부 동작들의 순서가 바뀌거나, 다른 동작이 추가될 수 있다.

다양한 실시 예에 따르면, 405 동작에서, 전자 장치(300)는 카메라(380)를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출할 수 있다. 일 실시 예에 따르면, 상기 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하는 동작은, 상기 카메라(380)를 통해 촬영되는 영상에서 관심 영역을 설정하는 동작 및 상기 관심 영역 내에서 상기 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하는 동작을 포함할 수 있다.

410 동작에서, 전자 장치(300)는 상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득할 수 있다. 일 실시 예에 따르면, 상기 생체 신호는, 비접촉 광혈류측정 방법을 통해 획득한 PPG(photo-plethysmography) 신호를 포함할 수 있다. 다양한 실시 예에 따르면, 상기 방법은, 상기 PPG 신호에 기반하여, 심박수 및 산소포화도 중 적어도 하나를 획득하는 동작을 더 포함할 수 있다. 예를 들어, 사용자의 생체 신호들에 기반하여 상기 심박수 및 산소포화도 중 적어도 하나를 획득할 수 있으며, 획득된 심박수 및 산소포화도와 같은 생체 데이터는 사용자의 현재 상태에 대응하는 서비스 지원을 결정하는데 이용될 수 있다.

415 동작에서, 전자 장치(300)는 상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭할 수 있다. 일 실시 예에 따르면, 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하는 동작은, 상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴을 비교하는 동작 및 상기 비교 결과에 기반하여, 상기 적어도 하나의 얼굴 영역 및 상기 적어도 하나의 손 영역 중에서 한 쌍의 얼굴 영역과 손 영역을 매칭하는 동작을 포함할 수 있다.

일 실시 예에 따르면, 상기 한 쌍의 얼굴 영역과 손 영역을 매칭하는 동작은, 상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴이 임계 범위 이내로 유사할 경우, 상기 얼굴 영역과 상기 손 영역을 한 쌍으로 매칭하는 동작을 포함할 수 있다.

420 동작에서, 전자 장치(300)는 상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별(또는 사용자 인증)할 수 있다. 일 실시 예에 따르면, 상기 방법은, 상기 얼굴 인식을 수행함으로써 사용자를 식별한 후, 상기 사용자 식별 결과를 상기 적어도 하나의 얼굴 영역에서의 생체 신호와 연관시키는 동작을 더 포함할 수 있다. 예를 들어, 전자 장치(300)는 기 저장된 얼굴 데이터를 이용하여 얼굴 인식을 수행함으로써 영상 내의 사용자를 식별할 수 있다.

425 동작에서, 전자 장치(300)는 상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별할 수 있다. 일 실시 예에 따르면, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하는 동작은, 상기 손 영역에서의 생체 신호에 기반하여, 상기 영상 내에서의 사용자 제스처를 식별하는 동작 및 상기 사용자 제스처에 대응하는 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하는 동작을 포함할 수 있다.

다양한 실시 예에 따르면, 상기 방법은, 상기 카메라를 통해 복수의 사용자를 촬영하는 경우, 상기 적어도 하나의 얼굴 영역 내 입술 영역을 식별하는 동작 및 상기 입술 영역에서의 생체 신호에 기반하여 상기 영상 내에서 발화 사용자를 식별하는 동작을 더 포함할 수 있다.

다양한 실시 예에 따르면, 상기 방법은, 상기 영상 내에서의 발화 사용자 제스처를 식별하는 동작 및 제스처별로 지정된 동작들 중 상기 발화 사용자의 제스처와 연관되어 지정된 동작을 수행하는 동작을 더 포함할 수 있다.

도 5a는 다양한 실시 예에 따른 카메라 영상을 이용한 생체 신호 모니터링 및 분석을 통한 멀티모달 명령어로 처리하는 방법을 설명하기 위한 도면이며, 도 5b는 상기 도 5a에 이어지는 도면이다. 여기서, 도 5a 및 도 5b는 연결된 도면이며, 각 처리 동작에서의 연결 관계는'A', 'B', 'C'로 나타낼 수 있다.

도 5a 및 도 5b를 참조하면, 적어도 하나의 사용자가 동작(또는 제스처)을 수행하는 동안 전자 장치(300)는 카메라(380)를 통해 입력되는 영상에서 적어도 하나의 이미지 처리 방법을 이용하여 얼굴 및 손을 탐색(502)할 수 있다. 전자 장치(300)는 입력 영상에서 관심 영역을 설정하고, 관심 영역 내에서 얼굴 및 손을 탐색할 수 있다. 예를 들어, 하나 이상의 영상 프레임 내에서 시간의 흐름에 따른 일관된 관심 영역을 설정하기 위해 영역 추적 알고리즘(예: 얼굴 트래킹, 손 트래킹)이 이용될 수 있다.

일 실시 예에 따르면, 전자 장치(300)는 입력 영상의 얼굴 영역 내 피부 픽셀 평균화(508)를 수행할 수 있다. 예를 들면, 얼굴 영역에는 PPG 신호 추정과 관련이 낮은 눈썹과 같은 픽셀들이 포함되어 있을 경우 피부색 필터링을 사용하여 PPG 신호 추정을 위한 영역을 제외한 나머지 영역을 제외시킬 수 있다. 얼굴의 경우 대부분이 혈관이 집중되어 있는 얼굴의 약 2/3 정도를 관심 영역(예: 얼굴 영역)으로 설정할 수 있다. 이때, PPG 신호 추정 시에 얼굴 영역의 크고 작은 움직임(또는 모션)으로 인해 발생하는 피부 표면의 불균일한 조명 반사를 제외시키기 위해 P.O.S 신호를 추출(510)하고, 모션 보상(512)을 한 신호 파형을 출력할 수 있다. 전자 장치(300)는 상기 신호 파형에 대해 노이즈를 필터링하기 위한 주파수 필터링(514)을 수행함으로써 노이즈 성분이 제거된 얼굴 관련한 PPG 신호를 획득(516)할 수 있다.

한편, 일 실시 예에 따르면, 전자 장치(300)는 입력 영상의 손 영역 내 피부 픽셀 평균화(518)를 수행할 수 있으며, P.O.S 신호를 추출(520)하고, 모션 보상(522)을 한 신호 파형을 출력할 수 있다. 전자 장치(300)는 상기 신호 파형에 대해 주파수 필터링(524)을 수행할 수 있다. 전술한 바에 설명한 얼굴 영역에 대한 처리 동작과 마찬가지로 손 영역에 대한 처리 동작도 동일할 수 있으므로, 손 관련한 PPG 신호를 획득(526)하는 동작에 대한 구체적인 설명은 생략하기로 한다.

상기와 같은 얼굴 관련한 PPG 신호 및 손 관련한 PPG 신호를 획득하는 동안에, 전자 장치(300)는 상기 입력 영상에 대한 얼굴 인식을 수행함으로써 사용자의 얼굴을 식별(504)할 수 있다. 예를 들어, 얼굴 인식 방법으로는 기존에 존재하는 임의의 얼굴 인식 방법이 이용될 수 있으며, 영상 프레임 내에 얼굴이 존재한다고 판단될 경우, 전자 장치(300)는 식별된 얼굴이 사용자의 얼굴이라고 결정함으로써 사용자를 식별할 수 있다. 또한, 전자 장치(300)는 얼굴 인식을 통해 식별된 사용자와 PPG 신호들을 연관시키기 위해 디지털 서명(506)을 생성할 수 있다. 예를 들어, 전자 장치(300)는 얼굴에서 얻은 PPG 신호에 대하여 얼굴 생체 데이터로 서명함으로써 추출한 PPG 신호를 사용자와 연관시키고 디지털 서명을 생성할 수 있다.

전자 장치(300)는 비접촉 광혈류측정(rPPG)을 통해 얻은 PPG 신호 분석에 의해서 입력 영상에서 얼굴과 손을 연결하고 멀티모달 시나리오에서 안전한 융합 음성 및 제스처를 위해 얼굴 생체 데이터로 이 신호에 서명(517, 527)할 수 있다. 또한, 전자 장치(300)는 입술 부위의 PPG 신호를 판독함으로써, 얼굴 생체 데이터에 의해서 사용자를 식별함과 동시에 PPG 신호에 서명할 수 있다.

전자 장치(300)는 얼굴 영역과 손 영역에서 획득한 PPG 신호들 사이의 패턴 매칭 및 상관 관계를 분석(530)할 수 있다. 매칭률(matching rate)이 높은 PPG 신호 패턴들의 경우 스켈레톤 인식 없이 멀티모달 명령을 위해 얼굴과 손을 한 쌍으로서 연결(545)시킬 수 있다.

얼굴과 손을 추적하는 동안 지속적으로 PPG 신호를 추출할 수 있으며, 멀티모달 명령 처리(540) 시 이러한 한 쌍의 PPG 신호에 기반하여 전자 장치(300)의 동작을 제어하기 위한 명령을 식별할 수 있다. 이때, 전자 장치(300)는 얼굴 인식을 통한 사용자 식별에 대응하여 서명된 신호들(507)을 멀티모달 명령 처리(540)를 위해 제공할 수 있다.

한편, 전자 장치(300)는 PPG 신호들을 이용하여 적어도 하나의 생체 정보를 제공할 수 있다. 예를 들어, 전자 장치(300)는 얼굴 관련한 PPG 신호에 기반하여 심박수(519)를 획득할 수 있으며, 손 관련한 PPG 신호에 기반해서도 심박수(529)를 획득할 수 있다. 적어도 하나의 생체 정보의 일 예로, 심박수 이외의 다양한 생체 정보의 제공이 가능할 수 있다. 예를 들어, 산소포화도, 호흡, 스트레스 지수와 같은 다양한 생체 정보가 전자 장치(300)의 동작을 제어하기 위한 명령을 실행하는데 반영될 수 있다.

다양한 실시 예에 따르면, 전자 장치(300)는 복수의 사용자들을 촬영하는 경우에도 얼굴과 손을 매칭할 수 있다. 또한, 전자 장치(300)는 얼굴 영역 내 입술 영역을 식별하고, 입술 영역에서의 신호 특성에 기반하여 상기 복수의 사용자들 중 발화 사용자를 식별할 수 있다. 따라서, 사용자가 음성 명령과 제스처를 동시에 수행하는 경우에도 얼굴 및 손 매칭을 통해 어떠한 사용자가 말하고 있는지와 해당 사용자가 어떠한 제스처를 취하고 있는지를 식별할 수 있기 때문에, 어떤 손이 발화 사용자와 관련된 것인지도 식별할 수 있다.

도 6a는 다양한 실시 예에 따른 복수의 사용자가 존재하는 환경에서의 사용자 식별 방법을 설명하기 위한 예시도이며, 도 6b는 상기 도 6a에서의 손과 얼굴 매칭을 통한 사용자 식별 방법을 설명하기 위한 예시도이다.

도 6a에 도시된 바와 같이, 카메라(380)를 통해 입력된 영상 프레임에서 복수의 사용자와 관련한 복수의 얼굴 영역들(610, 620, 630) 및 손 영역들(615, 625, 635)이 추출될 수 있다. 여기서, 영상은 실시간으로 촬영되는 동영상(605)일 수 있다. 예를 들어, 하나 이상의 영상 프레임 내에서 시간의 흐름에 따른 일관된 관심 영역을 설정하기 위해 손 트래킹 또는 얼굴 트래킹이 수행될 수 있다.

도 6b에 도시된 바와 같이, 얼굴 트래킹 동안에 제1 얼굴 영역(face-01), 제2 얼굴 영역(face-02), 제3 얼굴 영역(face-03) 각각과 관련해서는 서로 다른 파형의 제1 생체 신호(640), 제2 생체 신호(650), 제3 생체 신호(660)들이 획득될 수 있다.

또한, 손 트래킹 동안에는 제1 손 영역(hand-01), 제2 손 영역(hand-02), 제3 손 영역(hand -03) 각각과 관련해서는 서로 다른 파형의 제4 생체 신호(655), 제5 생체 신호(665), 제6 생체 신호(645)들이 획득될 수 있다.

전자 장치(300)는 각 얼굴 영역에서 얻은 생체 신호들(640, 650, 660)과 각 손 영역에서 얻은 생체 신호들(645, 655, 665) 사이의 상관 관계를 판단할 수 있다. 유사한 신호 패턴들의 경우 영상 내의 얼굴 영역과 손 영역을 한 쌍으로 연결시킬 수 있다. 일 실시 예에 따르면, 전자 장치(300)는 신호 패턴들의 비교 결과에 기반하여, 임계 범위 이내로 비교 결과가 일치하는 신호들을 한 쌍으로 매칭할 수 있다. 예를 들어, 제1 생체 신호(640)의 출력 파형은 제6 생체 신호(645)의 출력 파형과 동일하므로, 제1 얼굴 영역에서의 얼굴은 제3 손 영역에서의 손으로 매칭될 수 있다. 이와 같은 방식으로 촬영 영상 내에서 다수의 사용자가 존재하더라도 얼굴과 손을 연결할 수 있으며, 얼굴 인식을 통해 사용자 식별을 수행할 경우, 식별이 완료된 사용자와 관련된 얼굴 영역과 매칭되는 손도 동일한 사용자에 대한 것이므로, 손 제스처를 취하는 사용자 인증이 가능할 수 있다. 얼굴 인식을 통해 사용자를 식별(또는 인증)하여 식별된 사용자의 동작(또는 손 제스처)에 대해서만 전자 장치의 동작 제어가 가능하도록 함으로써, 전자 장치에 대한 향상된 보안 액세스를 제공할 수 있다.

도 7은 다양한 실시 예에 따른 얼굴에 대한 rPPG 신호 추출 방법을 설명하기 위한 예시도이다.

전자 장치(300)는 카메라(380)에서 촬영된 영상의 각 프레임에 대하여 사용자의 얼굴 및 손을 검출하기 위한 관심 영역(ROI: region of interest)을 결정할 수 있는데, 도 7에서는 얼굴에 대한 관심 영역을 예시하고 있다. 일 실시 예에 따르면, 얼굴의 경우 대부분이 혈관이 집중되어 있는 얼굴의 약 2/3 정도가 관심 영역으로 설정될 수 있다.

도 7에서의 각 영상 프레임(705, 710, 715, 725, 730, 735)은 실시간으로 촬영되는 영상의 적어도 일부 프레임을 예시한 것으로, 사용자의 얼굴이 향하는 방향이 변경되더라도 관심 영역은 지속적으로 얼굴 부분에 설정될 수 있다. 예를 들어, RMSE(root mean square error)가 0-2 bPm이며, 기준 거리가 1m, 최초 심박수(HR) 값을 얻기 위한 초기 시간은 5초, 가장 신뢰성 있는 값을 얻기 위한 지속 시간은 9초인 경우에서의 각 영상 프레임(705, 710, 715, 725, 730, 735) 내의 관심 영역에서의 생체 신호를 획득할 수 있다. 도 7의 각 영상 프레임(705, 710, 715, 725, 730, 735)에서와 같이 사용자의 얼굴 방향이 바뀌거나 영상 프레임(735)에서와 같이 기준 거리가 3m로 달라지더라도 실제 심박수와 생체 신호에 기반하여 추정되는 심박수는 큰 변화없이 일정한 값으로 출력될 수 있다. 이와 같이 관심 영역은 얼굴 중에서 표정에 의한 움직임이 비교적 적은 영역이므로 생체 신호의 측정에 적합할 뿐만 아니라, 측정 대상자 얼굴의 중앙에 위치하므로 얼굴이 프레임 내에서 움직임이 있더라도 생체 신호 측정에 주는 영향을 줄일 수 있다.

도 8은 다양한 실시 예에 따른 손에 대한 rPPG 신호 추출 방법을 설명하기 위한 예시도이다.

전자 장치(300)는 카메라(380)에서 촬영된 영상(805)의 각 프레임에 대하여 사용자의 얼굴 및 손을 검출하기 위한 관심 영역을 결정할 수 있는데, 도 8에서는 손에 대해 관심 영역(807)이 결정된 경우를 예시하고 있다.

다양한 실시 예에 따르면, 전자 장치(300)는 도 8에 도시된 바와 같이 손에 대한 관심 영역(807)에서 생체 신호(810)를 검출할 수 있다. 일 실시 예에 따르면, 손의 경우 혈관이 집중되는 손목, 손가락, 또는 양쪽 손바닥 중 적어도 하나가 관심 영역으로 설정될 수 있다.

예를 들어, 관심 영역에 해당하는 영상(815)에서는 다수의 색상의 광신호 데이터를 검출할 수 있는데, 촬영 영상의 경우 사용자의 혈관으로부터 반사되는 빛을 변환한 전기적인 신호를 이용하여 생체 신호를 출력할 수 있다. 이러한 생체 신호는 PPG 신호일 수 있다. 전자 장치(300)는 손에 대한 생체 신호를 획득하기 위해, 각 영상 프레임에 대한 분석을 수행할 수 있는데, 예컨대 초당 약 1500 프레임(예: 1.5GB/s) 속도로 16 비트, 1024 X 512 픽셀 인터페로그램(interferogram)의 입력 스트림으로부터 사용자 손의 맥파(pulse wave)를 실시간으로 계산 및 시각화할 수 있다. 64 개의 연속 홀로그램 스택의 시간 신호 복조(temporal signal demodulation)가 250 Hz의 속도로 주성분 분석에 의해 수행될 수 있다. 예를 들어, 사용자가 카메라(380)를 향해 손등을 보이게 촬영하는 경우, 화면 상에는 사용자의 손에 대한 생체 신호 기반의 심박수(예: 76 bPm)가 표시될 수도 있다.

다양한 실시 예에 따르면, 전자 장치(300)는 촬영 영상 내의 각 관심 영역 예컨대, 얼굴 영역 및 손 영역에 대한 PPG 신호를 획득하는 동안에 이러한 PPG 신호들을 분석할 수 있다. 예를 들어, 전자 장치(300)는 획득한 PPG 신호들을 분석함으로써 심박수와 산소포화도와 같은 적어도 하나의 생체 정보를 제공할 수 있다. 상기 PPG 신호에 기반한 심박수 산출 방식은 도 9a에서와 같은 방식을 기반으로 할 수 있으며, 산소포화도 산출 방식은 도 9b에서와 같은 방식을 기반으로 할 수 있다. 도 9a는 다양한 실시 예에 따른 심박수(HR) 산출 방법을 설명하기 위한 도면이며, 도 9b는 다양한 실시 예에 따른 산소포화도(SpO2) 산출 방법을 설명하기 위한 도면이다.

심박수 산출 방법을 도 9a를 참조하여 간략하게 설명하면, 카메라를 통해 CFEB(convolution feature extraction block))(910)에서 로우 센서 데이터(905, 910)를 수신할 수 있으며, 로우 센서 데이터는 얼굴 특징에 기반한 모션과 피부 화소를 변경한 신호를 포함할 수 있다. CFEB(910)에서는 로우 센서 데이터 처리를 통해 낮은 레벨 특징(low level feature)을 추출할 수 있다. 이어, CFEB(915)에서는 4d 컨텍스트 벡터 처리(context vector processing)를 통해 높은 레벨 특징(high level feature)을 추출할 수 있다. LSTM(long short-term memory)(920)에서는 시간 시퀀스 처리(time sequence processing)을 통해 시간 특징(temporal feature)을 추출할 수 있으며, 예를 들어, 원하는 시간 단위로 환산하여 측정 구간에 대한 심박수를 추정할 수 있어, 출력부(25)를 통해 산출된 심박수(930)가 출력될 수 있다. 참고로, CFEB에서는 다양한 동작들(940)이 수행될 수 있으며, 예를 들어, Conv1d(filter number, kernel size)는 컨볼루션(convolution)을 의미할 수 있다.

또한, 산호 포화도 산출 방법을 도 9b를 참조하여 간략하게 설명하면, 촬영 영상 내의 관심 영역들이 선택될 수 있다. 비접촉 광혈류측정(rPPG) 방법은 정반사(specular reflection)와 난반사(diffused reflection) 사이의 대비로서, 촬영 영상(또는 영상 프레임) 내의 피부에서 변화하는 R, G, B 빛 반사의 변화를 측정하는 것일 수 있다. 여기서, 정반사는 피부로부터의 순수한 광반사이며, 난반사는 혈액량 변화에 따라 달라지는 피부 조직의 흡수 및 산락으로 인해 남아있는 반사를 의미할 수 있다. 전자 장치(300)는 각 관심 영역에 대한 신호 파형(955)에 기반하여 PPG 신호를 획득할 수 있으며, AC 성분과 DV 성분(960, 965)을 산출함으로써 PPG 신호 기반의 산소포화도를 산출할 수 있다.

예를 들어, 전자 장치(300)는 사용자의 PPG 신호들에 기반하여 상기 심박수 및 산소포화도 중 적어도 하나를 획득할 수 있으며, 획득된 심박수 및 산소포화도와 같은 생체 데이터는 사용자의 현재 상태에 대응하는 서비스 지원을 결정하는데 이용될 수 있다.

도 10은 일반적인 스켈레톤(skeleton) 기반 인식 방법과 생체 신호 기반의 인식 방법을 비교 설명하기 위한 예시도이다.

도 10(a)에서는 복수의 사용자가 존재하는 환경에서 스켈레톤 기반의 인식 방법을 예시하고 있다. 스켈레톤 기반의 인식 방법의 경우에는 머리(또는 얼굴)와 손을 연결(매칭)하기 위해 전체 골격을 인식하는 동작 및 랜드마크(예: 키포인트, 관절) 링키지(linkage)를 위한 계산에 많은 리소스가 요구될 수 있다. 반면, 다양한 실시 예에 따른 생체 신호 기반의 인식 방법의 경우에는 사용자에 대한 얼굴 및 손에서 동일한 신호 패턴의 생체 신호를 추출하는 것이 가능하기 때문에, 이러한 신호 패턴을 이용함으로써 신체 부위들을 링크(또는 매칭)시킬 수 있다. 따라서, 헬스케어 분야에 있어 사용자에 대한 직접적인 접촉 없이도 사용자에 대한 심박수 측정 및 광혈량 측정(photo-plethysmography)이 가능하여, 스켈레톤 인식 방법을 사용하지 않고도 생체 신호의 분석을 통해 사용자에 대한 얼굴과 손을 연결할 수 있다. 또한, 전자 장치(300)의 동작 제어를 위해 사용자의 발화(speech)와 제스처가 동기화되어야 하는데, 복수의 사용자가 존재하는 환경에서는 각 사용자의 발화(또는 입술 움직임)와 손(또는 제스처)을 링크시키는 것은 어려울 수 있다.

다양한 실시 예에 따르면, 멀티모달 명령에 있어, 전체 스켈레톤(full skeleton) 인식 없이 촬영 영상(또는 영상 프레임)으로부터 비접촉 광혈류측정(rPPG)을 통해 얻은 사용자에 대한 생체 신호 분석 결과에 기반하여 사용자의 얼굴과 손을 연결할 수 있다. 다양한 실시 예에 따르면, 촬영 영상에서 얼굴과 손에 대한 분석 결과만 필요하기 때문에 멀티모달 명령에 있어 효율적일 뿐만 아니라, 사용자의 얼굴과 손을 매칭한 결과는 발화한 사용자의 음성과 제스처를 인식하는데 이용될 수 있다. 멀티모달 인터랙션은 다른 사용자들과 실제 사용자가 겹쳐지는 상황이 발생함으로 인해 스켈레톤 기반의 인식 방법은 복잡도가 높았으나, 다양한 실시 예에 따르면 발화 사용자와 상기 발화 사용자의 제스처를 식별할 수 있다. 이를 구체적으로 설명하기 위해 도 11 및 도 12에서 상세히 설명하기로 한다.

도 11은 다양한 실시 예에 따른 접속 권한이 있는 사용자의 멀티모달 입력에 따른 처리 결과를 나타낸 예시도이다. 도 11에서는 두 명의 사용자들이 제스처(1105, 1110)를 수행하는 동안, 카메라를 이용하여 상기 사용자들을 촬영(또는 캡처)하는 경우를 예시하고 있다.

도 11을 참조하면, 상기 사용자들이 제스처를 수행함에 따라 하나 이상의 영상 프레임이 캡처되며, 상기 하나 이상의 영상 프레임 내에서 관심 영역 예컨대, 얼굴 영역, 손 영역이 추출될 수 있다.

도 11을 참조하면, 일 실시 예에 따르면, 두 명의 사용자를 촬영한 영상에서 전자 장치(300)는 제1 얼굴 영역으로부터 얻어진 신호 값을 기반으로 제1 PPG 신호(예: PPG 1)를 획득할 수 있으며, 제2 얼굴 영역으로부터는 제2 PPG 신호(예: PPG 2)를 획득할 수 있다. 제1 얼굴 영역으로부터 제1 PPG 신호를 획득하면서 제2 얼굴 영역으로부터 제2 PPG 신호를 획득하는 동안에, 전자 장치(300)는 각 얼굴 영역에 대한 얼굴 인식을 수행함으로써 사용자를 식별할 수 있다.

일 실시 예에 따르면, 전자 장치(300)는 얼굴 인식을 통해 제1 사용자와 관련한 식별 정보(예: ID: 1) 및 제2 사용자와 관련한 식별 정보(예: ID: 2)를 획득할 수 있다. 전자 장치(300)는 사용자 식별 결과(또는 사용자 인증 결과)를 상기 각 얼굴 영역에서의 PPG 신호와 연관시킬 수 있다. 예를 들어, 전자 장치(300)는 얼굴 영역으로부터 획득한(또는 추출한) PPG 신호에 대해 얼굴 생체 데이터로 서명함으로써 추출한 PPG 신호를 사용자와 연관시키고 디지털 서명을 생성할 수 있다.

일 실시 예에 따르면, 전자 장치(300)는 제1 PPG 신호(예: PPG 1)를 제1 사용자와 관련한 식별 정보(예: ID: 1)로 서명(1115)할 수 있으며, 제2 PPG 신호(예: PPG 2)를 제2 사용자와 관련한 식별 정보(예: ID: 2)로 서명(1130)할 수 있다.

또한, 전자 장치(300)는 제1 손 영역으로부터 제1.1 PPG 신호(예: PPG 1.1)를 획득(1120)할 수 있으며, 제2 손 영역으로부터는 제2.1 PPG 신호(예: PPG 2.1)를 획득(1135)할 수 있다.

일 실시 예에 따르면, 전자 장치(300)는 얼굴 영역 각각에서의 PPG 신호의 패턴과 손 영역 각각에서의 PPG 신호의 패턴들을 비교함으로써, 비교 결과에 기반하여 한 쌍의 얼굴 영역과 손 영역을 매칭시킬 수 있다. 예를 들어, 전자 장치(300)는 제1 얼굴 영역에 대한 제1 PPG 신호(예: PPG 1) 및 제2 얼굴 영역에 대한 제2 PPG 신호(예: PPG 2) 각각의 신호 패턴을 제1 손 영역에 대한 제1.1 PPG 신호(예: PPG 1.1) 및 제2 손 영역에 대한 제2.1 PPG 신호(예: PPG 2.1) 각각과 비교할 수 있다. 만일 제1 얼굴 영역에 대한 제1 PPG 신호(예: PPG 1)의 패턴과 제1 손 영역에 대한 제1.1 PPG 신호(예: PPG 1.1)의 패턴이 임계 범위 이내로 유사할 경우, 제1 얼굴 영역 및 상기 제1 손 영역은 동일한 사용자 예컨대, 제1 사용자에 해당하는 것으로 간주될 수 있다.

따라서 전자 장치(300)는 얼굴과 손을 한 쌍으로 매칭시킨 후, 제1 손 영역에 대한 제1.1 PPG 신호(예: PPG 1.1) 및 제2 손 영역에 대한 제2.1 PPG 신호(예: PPG 2.1)를 분석함으로써, 멀티모달 명령을 식별할 수 있다. 예를 들어, 전자 장치(300)는 제1.1 PPG 신호(예: PPG 1.1)를 분석한 결과, 전자 장치(300)의 동작 제어(예: " 가드 모드를 중지해줘")를 위해 의도된 손바닥 들기와 같은 손 제스처를 식별(1125)할 수 있다. 또한, 전자 장치(300)는 제2.1 PPG 신호(예: PPG 2.1)를 분석한 결과, 전자 장치(300)의 동작 제어(예: " 오후 3시에 히터를 켜줘")를 위해 의도된 집게 모양으로 하는 손 제스처를 식별(1140)할 수 있다. 상기와 같은 멀티모달 명령들(1125, 1140)은 접속 권한 관리 모듈(1150)로 전달될 수 있다.

전자 장치(300)의 접속 권한 관리 모듈(1150)에서는 식별된 사용자가 제스처 또는 멀티모달 명령을 수행할 수 있는지 여부를 결정할 수 있다. 여기서, 접속 권한 관리 모듈(1150)은 손 영역 및 얼굴 영역 각각에서 획득한 PPG 신호 비교에 기반하여, 비교 결과 유사한 경우 상기 손 영역 및 상기 얼굴 영역과 연관된 사용자 대한 접근 권한을 허용할 수 있다. 이에 따라 접속 권한 모듈(1150)은 사용자 식별된 얼굴 영역과 매칭되는 손 영역에 대한 PPG 신호를 처리함으로써 촬영 영상에서 멀티모달 명령 또는 제스처를 수행하는 사용자의 퍼스널리티를 결정할 수 있다. 여기서, 퍼스널리티 결정은 PPG 신호에 대해, 얼굴 인식 후 사용자 식별 동안에 생성된 디지털 서명을 찾아내는 것을 의미할 수 있다. 예를 들어, 얼굴 인식을 통해 사용자 식별 후, 제1 PPG 신호(예: PPG 1)에 서명된 제1 사용자와 관련한 식별 정보(예: ID: 1)를 추출하고, 제2 PPG 신호(예: PPG 2)에 서명된 제2 사용자와 관련한 식별 정보(예: ID: 2)를 추출할 수도 있다.

상기한 바와 같이 전자 장치(300)는 각 얼굴 영역에 대한 PPG 신호 서명을 기반으로 퍼스널리티를 확인할 수 있으며, 이렇게 함으로써 명령 실행을 위한 접근 권한을 관리할 수 있다. 만일 접속 권한 관리 모듈(1150)에 의해 관리되는 DB에 얼굴 인식된 사용자와 관련된 식별 정보가 있는 경우, 전자 장치(300)는 제1 사용자에 의한 제스처(1105)에 대해서는 명령 실행과 함께 명령 실행과 관련한 내용(예: "가드 모드를 중지하겠습니다.")(1160)을 출력할 수 있다. 반면, 접속 권한 관리 모듈(1150)에 의해 관리되는 DB에 얼굴 인식된 사용자와 관련된 식별 정보가 없는 경우, 전자 장치(300)는 제2 사용자에 의한 제스처(1130)에 대해서는 명령 실행 불가를 안내하는 내용(예: "히터 제어 권한이 없습니다.")(1165)을 출력할 수 있다.

도 12는 다양한 실시 예에 따른 생체 신호의 추가적인 파라미터를 이용한 명령어 처리 결과를 나타낸 예시도이다. 도 12에서는 사용자가 제스처(1205)를 수행하는 동안, 카메라를 이용하여 상기 사용자를 촬영(또는 캡처)하는 경우를 예시하고 있다.

도 12를 참조하면, 상기 사용자가 제스처(1205)를 수행함에 따라 하나 이상의 영상 프레임이 캡처되며, 상기 하나 이상의 영상 프레임 내에서 관심 영역 예컨대, 얼굴 영역, 손 영역이 추출될 수 있다. 전자 장치(300)는 얼굴 영역에 대한 PPG 신호를 획득한 후 이를 얼굴 인식을 통한 사용자 식별 정보로 서명(1210)할 수 있다. 전자 장치(300)는 상기 얼굴 영역에서 대한 PPG 신호를 지속적으로 획득하는 동안에 상기 얼굴 영역과 매칭되는 손 영역에 대한 PPG 신호의 획득(1220)도 지속적으로 수행할 수 있다.

다양한 실시 예에 따르면, 전자 장치(300)는 손 영역에 대한 PPG 신호를 획득하는 동안에 이러한 PPG 신호들을 분석할 수 있다. 예를 들어, 전자 장치(300)는 획득한 PPG 신호들을 분석하여 심박수의 추출(1225) 및 스트레스 레벨의 산출(1230)과 같은 적어도 하나의 생체 정보를 제공할 수 있다. 상기 적어도 하나의 생체 정보는, 심박수, 스트레스 레벨, 또는 산소포화도 중 적어도 하나를 포함할 수 있다. 따라서 전자 장치(300)는 사용자의 손 영역에서의 PPG 신호를 분석한 결과, 전자 장치(300)의 동작 제어(예: " 이 영화를 시작해줘")를 위해 의도된 검지 손가락으로 지시하는 손 제스처를 식별(1215)할 수 있다. 상기와 같은 멀티모달 명령들(1215)은 접속 권한 관리 모듈(1235)로 전달될 수 있다.

전자 장치(300)의 접속 권한 관리 모듈(1235)에서는 PPG 신호 기반의 추가 파라미터들 예컨대, 적어도 하나의 생체 정보에 기반하여, 식별된 사용자가 제스처 또는 멀티모달 명령을 수행할 수 있는지 여부를 결정할 수 있다. 전자 장치(300)는 상기 적어도 하나의 생체 정보에 기반하여 사용자의 스트레스가 높다고 판단할 수 있으며, 이를 반영하여 명령을 실행할 수 있다. 예를 들어, 전자 장치(300)는 사용자에 의한 제스처(1205)에 대해서는 추가 파라미터를 반영한 명령 실행을 안내하는 내용(예: "영화나 TV를 보는 대신에 휴식을 취할 것을 추천합니다.")(1240)을 출력할 수 있다.

도 13은 다양한 실시 예에 따른 복수의 사용자가 존재하는 환경에서의 얼굴 및 손과 관련한 생체 신호 중 적어도 하나를 이용한 사용자 인증 방법을 설명하기 위한 예시도이다. 이를 구체적으로 설명하기 위해 도 14를 참조하기로 한다. 도 14는 상기 도 13에서의 손과 얼굴 매칭이 가능한 경우와 가능하지 않은 경우의 사용자 인증 방법을 설명하기 위한 예시도이다.

도 13에서는 다수의 사용자(예: 사용자 1, 사용자 2)가 존재하는 환경에서 카메라를 이용하여 촬영 시 사용자 1에 대해서는 얼굴 영역과 손 영역이 모두 검출되고, 사용자 2에 대해서는 손 영역만 검출되는 경우를 예시하고 있다.

도 14(a)에서는 얼굴 영역에 대한 PPG 신호와 손 영역에 대한 PPG 신호 둘다 이용 가능한 상태일 경우를 예시하고 있으며, 전자 장치(300)는 얼굴 영역과 손 영역 각각에서의 두 신호 간 상관 산출(correlation calculation)을 통해 얼굴과 손들을 매칭할 수 있다. 예를 들어, 얼굴 영역에서의 신호 패턴과 유사한 신호 패턴을 가지는 손 영역을 결정함으로써, 동일한 사용자에 대한 얼굴과 손이라고 결정할 수 있다.

도 14(b)에서는 얼굴 영역에 대한 PPG 신호와 손 영역에 대한 PPG 신호 둘 중 어느 하나만 이용 가능한 상태일 경우 예시하고 있다. 만일 촬영 영상에서 손 영역에 대한 PPG 신호만을 획득할 수 있는 경우, 전자 장치(300)는 얼굴 관련 PPG 신호들을 저장하는 데이터베이스를 이용할 수 있다. 상기 데이터베이스에 저장되는 신호들은 얼굴 ID 데이터로 서명될 수 있다. 따라서 전자 장치(300)는 얼굴 영역에 대한 PPG 신호를 획득할 수 없는 경우, 손 영역에 대한 PPG 신호와 매칭되는 얼굴 영역에 대한 PPG 신호를 데이터베이스로부터 검색하여 획득할 수 있다. 전자 장치(300)는 손 영역에 대한 PPG 신호와 매칭되는 얼굴 영역에 대한 PPG 신호에 서명된 얼굴 ID 데이터를 이용하여 사용자 2를 식별할 수 있다. 이와 같이 촬영 영상 내에서 얼굴 영역에 대한 PPG 신호를 획득하지 못하더라도, 전자 장치(300)는 손 영역에 대한 PPG 신호만으로도 전자 장치(300)의 동작 제어를 위한 접근 권한이 있는 사용자인지를 식별하는 것이 가능할 수 있다.

본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.

본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어^TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

전자 장치에 있어서,
카메라; 및
적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는, 상기 카메라를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하고,
상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득하고,
상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하고,
상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별하고,
상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하도록 설정된, 전자 장치.
제1항에 있어서, 상기 생체 신호는,
비접촉 광혈류측정 방법을 통해 획득한 PPG(photo-plethysmography) 신호를 포함하는, 전자 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴을 비교하고,
상기 비교 결과에 기반하여, 상기 적어도 하나의 얼굴 영역 및 상기 적어도 하나의 손 영역 중에서 한 쌍의 얼굴 영역과 손 영역을 매칭하도록 설정된, 전자 장치.
제3항에 있어서, 상기 적어도 하나의 프로세서는,
상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴이 임계 범위 이내로 유사할 경우, 상기 얼굴 영역과 상기 손 영역을 한 쌍으로 매칭하도록 설정된, 전자 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 손 영역에서의 생체 신호에 기반하여, 상기 영상 내에서의 사용자 제스처를 식별하고,
상기 사용자 제스처에 대응하는 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하도록 설정된, 전자 장치.
제2항에 있어서, 상기 적어도 하나의 프로세서는,
상기 PPG 신호에 기반하여, 심박수 및 산소포화도 중 적어도 하나를 획득하도록 설정된, 전자 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 얼굴 인식을 수행함으로써 상기 사용자를 식별한 후, 상기 사용자 식별 결과를 상기 적어도 하나의 얼굴 영역에서의 생체 신호와 연관시키도록 설정된, 전자 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 카메라를 통해 촬영되는 영상에서 관심 영역을 설정하고,
상기 관심 영역 내에서 상기 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하도록 설정된, 전자 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 카메라를 통해 복수의 사용자를 촬영하는 경우, 상기 적어도 하나의 얼굴 영역 내 입술 영역을 식별하고, 상기 입술 영역에서의 생체 신호에 기반하여 상기 영상 내에서 발화 사용자를 식별하도록 설정된, 전자 장치.
제9항에 있어서, 상기 적어도 하나의 프로세서는,
상기 영상 내에서의 발화 사용자 제스처를 식별하고,
제스처별로 지정된 동작들 중 상기 발화 사용자의 제스처와 연관되어 지정된 동작을 수행하도록 설정된, 전자 장치.
전자 장치에서 생체 신호 기반의 동작 제어를 위한 방법에 있어서,
카메라를 통해 촬영되는 영상에서 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하는 동작;
상기 추출된 적어도 하나의 얼굴 영역 및 손 영역 각각에서의 생체 신호를 획득하는 동작;
상기 획득된 생체 신호들을 이용하여 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하는 동작;
상기 생체 신호를 획득하는 동안에, 상기 영상에 대한 얼굴 인식을 수행함으로써 사용자를 식별하는 동작; 및
상기 식별된 사용자에 대한 얼굴 영역과 매칭된 손 영역에서의 생체 신호에 기반하여, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하는 동작을 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제11항에 있어서, 상기 생체 신호는,
비접촉 광혈류측정 방법을 통해 획득한 PPG(photo-plethysmography) 신호를 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제11항에 있어서, 상기 영상 내에서 얼굴 영역과 손 영역을 매칭하는 동작은,
상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴을 비교하는 동작; 및
상기 비교 결과에 기반하여, 상기 적어도 하나의 얼굴 영역 및 상기 적어도 하나의 손 영역 중에서 한 쌍의 얼굴 영역과 손 영역을 매칭하는 동작을 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제13항에 있어서, 상기 한 쌍의 얼굴 영역과 손 영역을 매칭하는 동작은,
상기 적어도 하나의 얼굴 영역에서의 생체 신호의 패턴과 상기 적어도 하나의 손 영역에서의 생체 신호의 패턴이 임계 범위 이내로 유사할 경우, 상기 얼굴 영역과 상기 손 영역을 한 쌍으로 매칭하는 동작을 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제11항에 있어서, 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하는 동작은,
상기 손 영역에서의 생체 신호에 기반하여, 상기 영상 내에서의 사용자 제스처를 식별하는 동작; 및
상기 사용자 제스처에 대응하는 상기 전자 장치의 동작을 제어하기 위한 명령을 식별하는 동작을 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제12항에 있어서, 상기 PPG 신호에 기반하여, 심박수 및 산소포화도 중 적어도 하나를 획득하는 동작을 더 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제11항에 있어서,
상기 얼굴 인식을 수행함으로써 상기 사용자를 식별한 후, 상기 사용자 식별 결과를 상기 적어도 하나의 얼굴 영역에서의 생체 신호와 연관시키는 동작을 더 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제11항에 있어서, 상기 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하는 동작은,
상기 카메라를 통해 촬영되는 영상에서 관심 영역을 설정하는 동작; 및
상기 관심 영역 내에서 상기 적어도 하나의 얼굴 영역 및 적어도 하나의 손 영역을 추출하는 동작을 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제11항에 있어서,
상기 카메라를 통해 복수의 사용자를 촬영하는 경우, 상기 적어도 하나의 얼굴 영역 내 입술 영역을 식별하는 동작; 및
상기 입술 영역에서의 생체 신호에 기반하여 상기 영상 내에서 발화 사용자를 식별하는 동작을 더 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.
제19항에 있어서,
상기 영상 내에서의 발화 사용자 제스처를 식별하는 동작; 및
제스처별로 지정된 동작들 중 상기 발화 사용자의 제스처와 연관되어 지정된 동작을 수행하는 동작을 더 포함하는, 생체 신호 기반의 동작 제어를 위한 방법.