KR20200050905A

KR20200050905A - 사용자의 의도 예측 방법 및 이를 수행하기 위한 장치

Info

Publication number: KR20200050905A
Application number: KR1020190139747A
Authority: KR
Inventors: 조규진; 조성호; 강병현; 김대겸; 최형민; 김규범
Original assignee: 서울대학교산학협력단; 한국과학기술원
Priority date: 2018-11-02
Filing date: 2019-11-04
Publication date: 2020-05-12
Also published as: US20210256250A1; KR102374448B1

Abstract

사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자의 신체 중 적어도 일부를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함한다.

Description

사용자의 의도 예측 방법 및 이를 수행하기 위한 장치 {METHOD FOR PREDICTING INTENTION OF USER AND APPARATUS FOR PERFORMING THE SAME}

본 명세서에서 개시되는 실시예들은 사용자를 촬영한 영상 분석을 통해 사용자의 의도를 예측하는 방법 및 장치에 관한 것이다.

사람은 보통 어떤 동작을 수행하기 전에 해당 동작을 수행하겠다는 생각을 먼저 머릿속에 떠올린다. 다시 말해, 사람은 다음 동작에 대한 의도(intention)를 갖고, 의도에 따라서 목적한 동작을 수행한다. 예를 들면 사용자의 앞에 컵이 놓여있을 경우, 사용자는 컵을 잡아야겠다는 생각, 즉 ‘잡기(grasping)’의 의도를 가진 후, 컵을 잡는 동작을 실행에 옮기게 된다.

그런데 사지마비(quadriplegia) 등의 장애를 가진 사용자의 경우, 어떤 행동에 대한 의도를 갖더라도 그러한 의도가 근육에 제대로 전달되지 못하므로 행동이 의도를 잘 반영하지 못한다. 따라서, 거동이 불편한 사용자들의 의도를 파악하고 파악된 의도에 따라서 일상생활행동(Activities of Daily Living, ADL)을 도와주는 로봇이 이용되고 있다. 이러한 로봇은 센서를 통해 사용자로부터 뇌파도(electroencephalogram, EEG), 근전도(electromyography, EMG) 또는 안전위도(electrooculogram, EOG) 등과 같은 생체신호(bio-signal)를 검출함으로써 의도를 파악하거나, 또는 사용자가 버튼을 누르는 등의 동작을 수행하면 검출되는 기계신호(mechanical signal)를 통해 사람의 다음 동작에 대한 의도를 파악한다.

이와 같이 의도를 파악하는 방법을 이용할 경우, 신호 검출을 위한 장비가 복잡하여 거추장스럽거나, 사용자가 버튼을 누르는 등의 추가적인 동작을 수행해야 하므로 불편한 단점이 있다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 사용자를 촬영한 영상을 분석하는 간단한 작업을 통해 사용자의 의도를 정확하게 예측(prediction)하는 방법을 제공하고자 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법을 수행하기 위한 컴퓨터 프로그램으로서, 사용자의 의도를 예측하는 방법은, 사용자를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 사용자의 의도를 예측하는 방법은, 사용자를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 의도 예측 장치는, 외부로부터 사용자를 촬영한 영상을 수신하고, 상기 영상을 분석함으로써 예측한 상기 사용자의 다음 동작에 대한 의도를 출력하기 위한 입출력부, 상기 영상을 분석함으로써 상기 사용자의 다음 동작에 대한 의도를 예측하기 위한 프로그램이 저장되는 저장부 및 적어도 하나의 프로세서를 포함하는 제어부를 포함하며, 상기 제어부는, 상기 프로그램을 실행함으로써, 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 사용자를 촬영한 영상을 분석하는 간단한 작업을 통해 사용자의 다음 동작에 대한 의도를 정확하게 예측할 수 있는 효과를 기대할 수 있다.

특히, 사용자는 생체신호를 검출하기 위한 센서와 같은 장비를 착용하거나, 자신의 의도를 나타내기 위해 버튼을 입력하는 등의 추가적인 동작을 수행하지 않더라도, 영상 촬영을 위한 1인칭 카메라만 착용하면 자신의 의도가 정확하게 예측되고, 그에 따라 움직임에 대한 보조를 받을 수 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 의도 예측 장치 및 이를 포함하는 움직임 보조 시스템을 도시한 도면이다.
도 2는 일 실시예에 따른 의도 예측 장치의 상세 구성을 도시한 도면이다.
도 3은 일 실시예에 따른 의도 예측 장치에서 영상 분석을 통한 의도 예측 시 사용하는 딥러닝 네트워크를 도시한 도면이다.
도 4 내지 도 7은 실시예들에 따른 의도 예측 방법을 설명하기 위한 순서도들이다.
도 8은 일 실시예에 따른 의도 예측 방법 및 장치를 이용하여 의도를 예측한 결과를, 생체신호 검출을 통한 의도 측정 방법의 결과와 비교하는 그래프이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 의도 예측 장치 및 이를 포함하는 움직임 보조 시스템을 도시한 도면이다. 도 1을 참조하면, 일 실시예에 따른 움직임 보조 시스템은, 카메라(10), 움직임 보조 장치(20), 구동 장치(30) 및 의도 예측 장치(100)를 포함한다.

이하에서는 도 1을 참조하여 사용자(1)가 장갑 형태의 움직임 보조 장치(20)를 착용한 상태에서 목표물체(2)를 잡거나 놓는 동작을 수행함에 있어서, 카메라(10)를 통해 촬영한 영상을 의도 측정 장치(100)가 분석함으로써 사용자의 ‘잡기(grasping)’, ‘놓기(releasing)’ 또는 ‘휴식(rest)’에 대한 의도를 예측하고, 예측된 의도에 따라 구동 장치(30)에 구동신호를 인가함으로써 움직임 보조 장치(20)를 동작시키는 상황을 예로 들어 설명한다.

카메라(10)는 사용자를 촬영하고 촬영 영상을 의도 예측 장치(100)에 전송할 수 있다. 도 1에 도시된 카메라(10)는 사용자(1)가 안경 형태로 착용하여 1인칭 시점의 영상 촬영이 가능하다. 카메라(10)는 1인칭 시점에서 영상을 촬영하므로 사용자(1)의 손이나 발 등과 같은 신체 일부가 영상에 나오도록 촬영할 수 있다. 한편 이와 다르게 사용자(1)의 다른 신체 부위에 착용하거나, 또는 3인칭 시점의 영상 촬영이 가능한 카메라를 사용하는 것도 가능하다.

움직임 보조 장치(20)는 사용자의 움직임을 보조하기 위한 장치로서, 특히 거동이 불편한 사용자가 자신의 의도에 따라 동작할 수 있도록 도와주는 역할을 수행할 수 있다. 도 1에서는 사용자(1)의 손에 착용하는 장갑 형태의 움직임 보조 장치(20)가 도시되었으나, 이와 다르게 사용자(1)의 다양한 신체 부위에 착용 가능한 움직임 보조 장치(20)가 이용될 수도 있음은 자명하다. 움직임 보조 장치(20)는 구동 장치(30)에 연결되어 구동 장치(30)에 의해 작동된다.

구동 장치(30)는 의도 예측 장치(100)로부터 수신하는 구동신호에 따라서 움직임 보조 장치(20)를 작동시킨다. 예를 들어, 구동 장치(30)는 의도 예측 장치(100)로부터 ‘잡기’에 대응되는 구동신호를 수신하면 장갑 형태의 움직임 보조 장치(20)가 구부러지도록 작동시키고, 반대로 ‘놓기’에 대응되는 구동신호를 수신하면 장갑 형태의 움직임 보조 장치(20)가 펴지도록 작동시킬 수 있다.

의도 예측 장치(100)는 연산 수행이 가능한 컴퓨팅 장치로서, 예를 들어 PC, 노트북 또는 다양한 목적의 작업을 수행할 수 있도록 구현된 임베디드 컴퓨팅(embedded computing) 장치 등으로 구현될 수 있다. 의도 예측 장치(100)는 카메라(10)로부터 수신한 촬영 영상을 분석함으로써 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다. 구체적으로, 의도 예측 장치(100)는 수신한 영상에 포함된 사용자(1)와 목표물체(2)에 대한 공간정보(spatial information) 및 시간정보(temporal information)를 이용하여 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다. 이때, 사용자(1)의 다음 동작이란 목표물체(2)와 관련한 동작을 의미할 수 있다. 다시 말해, 사용자(1)가 목표물체(2)를 대상으로 하는 잡기 또는 놓기 등과 같은 동작을 의미할 수 있다.

한편, 도 1에 대응되는 실시예에서는 의도 예측 장치(100)가 사용자(1)와 목표물체(2)에 대한 공간정보 및 시간정보를 얻기 위해 카메라(10)를 통해 촬영된 영상을 이용하는 것으로 설명하지만, 이와 다르게 사용자(1)와 목표물체(2) 중 적어도 하나 이상에 IMU(Inertial Measurement Unit) 센서를 비롯한 다양한 종류의 기계적 센서(mechanical sensor)를 장착하고 이들을 통해 공간정보 및 시간정보를 획득할 수도 있다. 이와 같이 구현되는 경우 의도 예측 장치(100)는 영상을 분석하는 대신에 센서들로부터 수신한 신호를 이용하여 공간정보 및 시간정보를 추출하고, 이를 이용하여 사용자의 의도를 예측할 수도 있다.

또는, 의도 예측 장치(100)는 카메라(10)를 통해 촬영된 영상과, 사용자(1)와 목표물체(2) 중 적어도 하나에 설치된 센서들로부터 수신하는 데이터들을 모두 이용하여 공간정보 및 시간정보를 획득할 수도 있다.

의도 예측 장치(100)는 딥러닝 네트워크를 이용해 영상을 분석하고 사용자의 다음 동작에 대한 의도를 예측할 수 있는데, 의도 예측 장치(100)가 영상 분석을 통해 사용자의 다음 동작에 대한 의도를 예측하는 구체적인 프로세스는 아래에서 도 2를 참조하여 자세히 설명하도록 한다.

도 2는 일 실시예에 따른 의도 예측 장치의 상세 구성을 도시한 도면이다. 도 2를 참조하면, 일 실시예에 따른 의도 예측 장치(100)는 입출력부(110), 통신부(120), 제어부(130) 및 저장부(140)를 포함할 수 있다.

입출력부(110)는 사용자(1) 또는 관리자로부터 입력을 수신하거나 또는 카메라(10)로부터 촬영 영상을 수신할 수 있다. 또한, 입출력부(110)는 영상 분석을 통해 예측한 사용자의 다음 동작에 대한 의도를 출력할 수 있다. 예를 들어, 입출력부(110)는 예측된 의도에 대응되는 구동신호를 구동 장치(30)에 출력할 수 있다.

통신부(120)는 외부 디바이스와 유무선 통신을 수행하기 위한 구성으로서 다양한 종류의 통신 포트, 이더넷 통신 및 무선 LAN 통신 등을 지원하는 통신 칩셋 등으로 구성될 수 있다. 도 2에서는 통신부(120)가 입출력부(110)와 분리된 구성인 것으로 도시하였으나, 통신부(120)는 입출력부(110)에 포함될 수도 있다. 즉, 통신부(120)는 입출력부(110) 내에서 영상, 데이터, 명령 및 신호 등을 외부 장치와 유무선 통신을 통해 송수신할 수 있도록 동작할 수 있다.

저장부(140)에는 다양항 종류의 프로그램 및 데이터가 저장될 수 있다. 특히, 저장부(140)에는 사용자(1)를 촬영한 영상 분석을 통해 사용자(1)의 다음 동작에 대한 의도를 예측하기 위한 프로그램이 저장되어 제어부(130)에 의해 실행될 수 있다.

제어부(130)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 의도 예측 장치(100)의 전반적인 동작을 제어한다. 특히, 제어부(130)는 저장부(140)에 저장된 프로그램을 실행함으로써 영상 분석을 통해 사용자의 의도를 예측하며, 이를 위해 도 3에 도시된 딥러닝 네트워크를 구현할 수 있다.

제어부(130)는 카메라(10)로부터 수신한 영상에 포함된 사용자(1)와 목표물체(2)에 대한 공간정보 및 시간정보를 이용하여 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다.

이때 공간정보란, 정지된 시점의 영상에 포함된 객체의 형태, 크기, 위치, 텍스처(texture), 강성 및 색상 등에 대한 정보로서, 구체적으로 사용자(1)의 신체 일부의 포즈(pose) 및 사용자(1)의 신체 일부와 목표물체(2) 간 상호작용(interaction)을 포함할 수 있다. 예를 들어, 사용자(1)의 신체 일부가 손인 경우에 공간정보에는 사용자(1)의 손이 취하는 제스처(gesture)가 포함될 수 있다. 또한, 공간정보에는 목표물체(2)의 크기, 형태, 텍스처, 강성 및 색상 등이 포함됨으로써 목표물체(2)의 종류에 따른 의도 예측 정확도를 높일 수도 있다.

공간정보에 포함되는 사용자(1)의 신체 일부와 목표물체(2) 간 상호작용이란, 사용자(1)의 신체 일부와 목표물체(2) 간 거리, 목표물체(2)를 기준으로 한 사용자(1)의 신체 일부의 위치 및 방향 등을 포함할 수 있다. 사용자(1)의 손과 목표물체(2) 간 거리가 얼마나 가까운지, 그리고 사용자(1)의 손이 어느 위치에서 어떤 방향으로 목표물체(2)를 향해 접근하고 있는지에 따라서 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있기 때문이다.

한편 시간정보란, 시간의 흐름에 따른 사용자(1)의 신체 일부의 포즈 및 상호작용의 변화를 포함한다. 예를 들어, 시간이 흐름에 따라서 사용자(1)의 손이 취하는 제스처가 어떻게 변해가는지, 사용자(1)의 손이 목표물체(2)에 가까워지는지 아니면 목표물체(2)로부터 멀어지는지, 그리고 사용자(1)의 손이 이동하는 궤적(trajectory)이 어떻게 되는지, 사용자(1)의 손이 목표물체(2)를 향해 움직이는 속도가 얼마인지 등이 시간정보에 포함될 수 있다.

제어부(130)는 촬영 영상으로부터 공간정보 및 시간정보를 추출하고, 추출된 공간정보 및 시간정보에 기초하여 사용자(1)의 다음 동작에 대한 의도를 예측하기 위해 딥러닝 네트워크를 이용한다. 즉, 제어부(130)가 저장부(140)에 저장된 프로그램을 실행시킴으로써 구현되는 딥러닝 네트워크가 촬영 영상을 입력으로서 인가받아 예측된 의도를 결과값으로서 출력할 수 있다.

도 3은 일 실시예에 따른 의도 예측 장치에서 영상 분석을 통한 의도 예측 시 사용하는 딥러닝 네트워크를 도시한 도면이다. 도 3을 참조하면, 일 실시예에 따른 딥러닝 네트워크는 공간정보 추출부(310), 시간정보 추출부(320), 풀링 레이어(pooling layer)(330), 머징 레이어(merging layer)(340), 풀리 커넥티드 레이어(fully-connected layer) 및 출력부(360)를 포함할 수 있다.

공간정보 추출부(310)는 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출한다. 따라서, 공간정보 추출부(310)는 2차원 이미지 데이터의 학습 및 테스트에 적합한 콘볼루션 신경망(Convolution Neural Network, CNN)으로 구현될 수 있다. 공간정보 추출부(310)는 각각의 프레임에 포함된 픽셀 데이터로부터 공간정보의 특징을 추출하고, 이를 시간정보 추출부(320)로 전달할 수 있다.

시간정보 추출부(320)는 공간정보 추출부(310)로부터 수신한 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출할 수 있다. 따라서, 시간정보 추출부(320)는 시계열 데이터의 학습 및 테스트에 적합한 순환 신경망(Recurrent Neural Network, RNN)으로 구현될 수 있으며, 도 3에서는 특히 LSTM(long short-term memory)으로 시간정보 추출부(320)를 구현한 예를 도시하였다.

풀링 레이어(330)는 시간정보 추출부(320)로부터 수신한 시간정보의 특징을 통합하는 작업을 수행하며, 다양한 풀링 방식을 사용할 수 있는데 도 3에서는 에버리지 풀링(average pooling) 방식을 사용하는 예들 도시하였다.

머징 레이어(340)는 풀링 레이어(330)에서 통합된 시간정보의 특징과 공간정보 추출부(310)로부터 출력된 공간정보의 특징(311)을 통합하여 풀리 커넥티드 레이어(350)에 전달한다.

풀리 커넥티드 레이어(350)에서 처리된 정보들은 출력부(360)에 전달되며, 출력부(360)는 사용자(1)의 다음 동작에 대한 의도를 결과값으로서 출력한다.

제어부(130)는 딥러닝 네트워크를 통해 예측된 사용자(1)의 다음 동작에 대한 의도에 따라서, 입출력부(110)를 통해 구동 장치(30)에 구동신호를 인가할 수 있다. 이때, 예측된 의도의 정확도를 높이고 시스템 효율을 높이기 위해 제어부(130)는 다음과 같은 두 가지 방법을 사용할 수 있다.

첫 번째 방법은 다음과 같다. 딥러닝 네트워크는 짧은 시간 동안 상당히 많은 결과값을 출력(예를 들어, 1초에 24개의 결과값 출력)할 수 있으므로, 모든 결과값에 대응하여 구동신호를 출력할 경우 시스템의 효율이 떨어지고 예측 정확도도 낮아지는 문제가 있을 수 있다. 따라서 일 실시예에 따르면, 제어부(130)는 구동 장치(30)에 구동신호를 인가함에 있어서, 미리 설정된 일정 시간 동안 딥러닝 네트워크에서 출력되는 복수의 결과값 중에서 미리 설정된 비율 이상을 차지하는 결과값을 선택하고, 선택된 결과값에 대응되는 구동신호를 구동 장치(30)에 인가할 수 있다. 예를 들어, 딥러닝 네트워크가 1초에 24개의 결과값을 출력한다고 가정하면, 24개의 결과값 중 50%인 12개 이상의 결과값이 ‘잡기’일 경우 제어부(130)는 ‘잡기’에 대응되는 구동신호를 출력할 수 있다. 이때, 일정 시간 및 비율은 필요에 따라서 적절히 설정될 수 있다.

두 번째 방법은 다음과 같다. 사용자(1)가 취할 수 있는 동작을 둘 이상의 종류로 구분한다면, 사용자(1)가 다음에 취하고자 하는 동작은 사용자(1)가 현재 취하고 있는 동작과 다른 종류의 동작일 가능성이 높다. 따라서, 제어부(130)는 사용자가 현재 취한 동작의 종류를 확인하고, 미리 설정된 일정 시간 동안 딥러닝 네트워크에서 결과값으로 출력된 의도 중에서 사용자가 현재 취한 동작과 다른 동자에 대한 의도만을 선택하고, 선택된 의도에 대응되는 구동신호를 구동 장치(30)에 인가할 수 있다. 예를 들어, 사용자(1)가 현재 취한 동작의 종류가 ‘잡기’라면, 제어부(130)는 딥러닝 네트워크에서 출력된 결과값 중에서 ‘잡기’는 제외하고 ‘놓기’와 같이 다른 종류의 동작에 대한 의도만을 선택하고, 그에 대응되는 구동신호를 출력할 수 있다.

이하에서는 본 실시예에서 사용되는 딥러닝 네트워크를 학습시키는 방법에 대해서 설명한다.

딥러닝 네트워크를 학습시키기 위해서는 ‘잡기’, ‘놓기’ 또는 ‘휴식’ 각각의 의도에 대응되는 데이터(영상을 구성하는 하나 이상의 프레임)를 수집하고, 해당 데이터에 대응되는 의도를 라벨링(labeling)해야 한다.

그런데, 보통 어떤 동작을 수행하기 위해서는 둘 이상의 동작이 한꺼번에 일어나고, 그 중 어느 하나의 동작의 시작과 끝에 해당되는 시점을 특정하기가 어려워 라벨링에 어려움이 있을 수 있다. 따라서, 본 실시예에서는 의도 예측 정확도를 높일 수 있는 라벨링을 위한 가이드 라인을 제시한다.

‘잡기’ 의도에 대한 라벨링의 경우, 사용자(1)의 신체 일부와 목표물체(2) 간 거리와 사용자(1)의 신체 일부의 속도가 일정 조건을 만족하는 경우 ‘잡기’ 의도로 라벨링을 한다. 예를 들어, 사용자(1)의 손과 목표물체(2) 간 거리가 2cm 미만이고, 사용자(1)의 손의 이동속도, 즉 사용자(1)의 손이 목표물체(2)를 향해 접근하는 속도가 0이라면 ‘잡기’ 의도로 라벨링을 할 수 있다. 이러한 구체적인 기준은 필요에 따라 다양하게 설정될 수 있다.

‘놓기’ 의도에 대한 라벨링의 경우, 목표물체(2)의 위치 및 사용자(1)의 신체 일부의 속도가 일정 조건을 만족하는 경우 ‘놓기’ 의도로 라벨링을 한다. 예를 들어, 목표물체(2)의 적어도 일부가 지면과 맞닿은 상태로 놓여있고, 목표물체(2)를 잡고 있는 사용자(1)의 손의 속도가 3프레임 이상 동안 0이라면 ‘놓기’ 의도로 라벨링을 할 수 있다. 이러한 구체적인 기준은 필요에 따라 다양하게 설정될 수 있다.

또한, 학습 효과를 높이기 위해서 움직임 보조 장치(20)에 적외선 센서를 설치하고, 이를 이용하여 측정한 손과 목표물체 간 거리를 학습 시 반영할 수도 있다.

도 4 내지 도 7은 실시예들에 따른 의도 예측 방법을 설명하기 위한 순서도들이다. 이하에서는 도 1 내지 3을 함께 참조하여 의도 예측 장치(100)에서 수행되는 의도 예측 방법에 대해서 설명한다.

도 4를 참조하면, 401 단계에서 의도 예측 장치(100)는 사용자(1)를 촬영한 영상을 수신한다. 이때, 수신되는 촬영 영상은 카메라(10)에서 촬영된 1인칭 시점의 영상일 수도 있다.

402 단계에서 의도 예측 장치(100)는 수신한 영상에 포함된 사용자(1)와 목표물체(2)에 대한 공간정보 및 시간정보를 이용하여 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다. 의도 예측 장치(100)가 영상 분석을 통해 사용자(1)의 의도를 예측하는 구체적인 프로세스는 아래에서 도 5를 참조하여 자세히 설명한다.

403 단계에서 의도 예측 장치(100)는, 402 단계에서 예측된 의도에 따라서, 사용자의 움직임을 보조하는 움직임 보조 장치(20)에 구동신호를 전송할 수 있다.

도 5는 도 4의 402 단계에 포함되는 세부 단계들을 도시한 도면이다.

도 5를 참조하면, 501 단계에서 의도 예측 장치(100)의 제어부(130)는 수신한 영상을 딥러닝 네트워크의 입력으로서 인가한다. 이때 이용되는 딥러닝 네트워크는 도 3에 도시된 바와 같이 공간정보 추출부와 시간정보 추출부를 포함할 수 있다.

502 단계에서 딥러닝 네트워크의 공간정보 추출부를 구성하는 콘볼루션 신경망은 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출하고, 추출된 공간정보의 특징을 시간정보 추출부에 전달할 수 있다.

503 단계에서 딥러닝 네트워크의 시간정보 추출부를 구성하는 순환 신경망은 수신한 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출할 수 있다.

504 단계에서 딥러닝 네트워크는 추출된 공간정보의 특징 및 시간정보의 특징에 기초하여, 사용자(1)의 다음 동자에 대한 의도를 결과값으로서 출력할 수 있다.

도 6은 도 4의 403 단계에 포함되는 세부 단계들을 도시한 도면이다.

도 6을 참조하면, 601 단계에서 의도 예측 장치(100)의 제어부(130)는 딥러닝 네트워크에서 미리 설정된 일정 시간 동안 출력된 복수의 결과값 중에서 미리 설정된 일정 비율 이상을 차지하는 결과값이 있는지 여부를 판단한다. 제어부는 만약 일정 비율 이상을 차지하는 결과값이 없다면 프로세스를 종료하고, 일정 비율 이상을 차지하는 결과값이 있다면 602 단계로 진행한다.

602 단계에서 제어부(130)는 미리 설정된 일정 시간 동안 출력된 복수의 결과값 중에서 미리 설정된 일정 비율 이상을 차지하는 결과값을 선택하고, 선택된 결과값에 대응되는 구동신호를 구동 장치(30)에 출력한다.

도 7은 도 4의 403 단계에 포함되는 세부 단계들을 도시한 도면이다.

도 7을 참조하면, 701 단계에서 의도 예측 장치(100)의 제어부(130)는 사용자(1)가 현재 취한 동작의 종류를 확인한다.

702 단계에서 제어부(130)는 딥러닝 네트워크에서 미리 설정된 일정 시간 동안 출력된 복수의 결과값 중에서, 701 단계에서 확인된 동작의 종류와 다른 동작에 대한 의도가 있는지 여부를 판단한다. 판단 결과, 사용자(1)가 현재 취한 동작의 종류와 다른 동작에 대한 의도가 없다면 프로세스를 종료하고, 사용자(1)가 현재 취한 동작의 종류와 다른 동작에 대한 의도가 있다면 703 단계로 진행한다.

703 단계에서 제어부(130)는 사용자(1)가 현재 취한 동작의 종류와 다른 동작에 대한 의도를 선택하고, 선택된 의도에 대응되는 구동신호를 구동 장치(30)에 출력한다.

도 8은 일 실시예에 따른 의도 예측 방법 및 장치를 이용하여 의도를 예측한 결과를, 생체신호 검출을 통한 의도 측정 방법의 결과와 비교하는 그래프이다.

도 8에 도시된 그래프 중 810 영역에 표시된 그래프는 사용자로부터 검출된 근전도 신호를 나타내는데, 구부리기(flexion)와 펴기(extension)에 대응되는 그래프가 교차하는 지점에서 ‘잡기’ 또는 ‘놓기’의 의도가 있음을 파악할 수 있다.

한편, 820 영역에 표시된 그래프는 일 실시예에 따라 영상 분석을 통해 의도를 예측한 결과를 나타내며, 펄스 파형으로 ‘잡기’ 또는 ‘놓기’ 중 어느 하나의 의도가 있음을 보여준다.

도 8을 참조하면, 820 영역에 표시된 그래프를 통해 예측되는 의도가 810 영역에 표시된 그래프를 통해 파악되는 의도보다 앞서는 것을 확인할 수 있다. 즉, 일 실시예에 따른 의도 예측 방법에 의할 경우 정확하면서도 기존 방법에 비해 더 빠른 의도 예측이 가능함을 확인할 수 있다.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

도 4 내지 도 7을 통해 설명된 실시예에 따른 의도 예측 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 도 4 내지 도 7을 통해 설명된 실시예에 따른 의도 예측 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 도 4 내지 도 7을 통해 설명된 실시예에 따른 의도 예측 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

1: 사용자 2: 목표물체
10: 카메라 20: 움직임 보조 장치
30: 구동 장치 100: 의도 예측 장치
110: 입출력부 120: 통신부
130: 제어부 140: 저장부

Claims

사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법에 있어서,
사용자를 촬영한 영상을 수신하는 단계; 및
상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 공간정보는,
상기 사용자의 신체 일부의 포즈(pose) 및 상기 사용자의 신체 일부와 상기 목표물체 간 상호작용(interaction)을 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 공간정보는,
상기 목표물체의 크기, 형태, 텍스처(texture), 강성 및 색상 중 적어도 하나 이상을 더 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 상호작용은,
상기 신체 일부와 상기 목표물체 간 거리, 상기 목표물체를 기준으로 한 상기 신체 일부의 위치 및 방향 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 시간정보는,
시간의 흐름에 따른 상기 사용자의 신체 일부의 포즈 및 상기 상호작용의 변화를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,
상기 시간정보는,
상기 신체 일부가 움직이는 궤적(trajectory) 및 상기 신체 일부가 상기 목표물체를 향해 움직이는 속도 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 예측하는 단계는,
상기 영상을 딥러닝 네트워크의 입력으로서 인가하는 단계;
상기 딥러닝 네트워크에 포함된 콘볼루션 신경망(Convolution Neural Network, CNN)을 통해, 상기 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출하는 단계;
상기 딥러닝 네트워크에 포함된 순환 신경망(Recurrent Neural Network, RNN)을 통해, 상기 추출된 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출하는 단계; 및
상기 추출된 공간정보의 특징 및 시간정보의 특징에 기초하여, 상기 다음 동작에 대한 의도를 결과값으로서 출력하는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 예측된 의도에 따라서, 상기 사용자의 움직임을 보조하는 장치에 구동신호를 인가하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,
상기 구동신호를 인가하는 단계는,
미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 출력되는 복수의 결과값 중에서 미리 설정된 일정 비율 이상을 차지하는 결과값을 선택하는 단계; 및
상기 선택된 결과값에 대응되는 구동신호를 인가하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,
상기 사용자가 취할 수 있는 동작은 적어도 둘 이상의 종류로 구분되며,
상기 구동신호를 인가하는 단계는,
상기 사용자가 현재 취한 동작의 종류를 확인하는 단계;
미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 결과값으로 출력된 의도 중에서 상기 확인된 동작의 종류와 다른 동작에 대한 의도만을 선택하는 단계; 및
상기 선택된 의도에 대응되는 구동신호를 인가하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 사용자를 촬영한 영상은,
상기 사용자의 1인칭 시점에서 상기 사용자의 신체 중 적어도 일부가 나오도록 촬영한 영상인 것을 특징으로 하는 방법.
제1항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
의도 예측 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
의도 예측 장치에 있어서,
외부로부터 사용자를 촬영한 영상을 수신하고, 상기 영상을 분석함으로써 예측한 상기 사용자의 다음 동작에 대한 의도를 출력하기 위한 입출력부;
상기 영상을 분석함으로써 상기 사용자의 다음 동작에 대한 의도를 예측하기 위한 프로그램이 저장되는 저장부; 및
적어도 하나의 프로세서를 포함하는 제어부를 포함하며,
상기 제어부는,
상기 프로그램을 실행함으로써, 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는, 장치.
제14항에 있어서,
상기 공간정보는,
상기 사용자의 신체 일부의 포즈(pose) 및 상기 사용자의 신체 일부와 상기 목표물체 간 상호작용(interaction)을 포함하는 것을 특징으로 하는 장치.
제15항에 있어서,
상기 공간정보는,
상기 목표물체의 크기, 형태, 텍스처(texture), 강성 및 색상 중 적어도 하나 이상을 더 포함하는 것을 특징으로 하는 장치.
제15항에 있어서,
상기 상호작용은,
상기 신체 일부와 상기 목표물체 간 거리, 상기 목표물체를 기준으로 한 상기 신체 일부의 위치 및 방향 중 적어도 하나를 포함하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 시간정보는,
시간의 흐름에 따른 상기 사용자의 신체 일부의 포즈 및 상기 상호작용의 변화를 포함하는 것을 특징으로 하는 장치.
제18항에 있어서,
상기 시간정보는,
상기 신체 일부가 움직이는 궤적(trajectory) 및 상기 신체 일부가 상기 목표물체를 향해 움직이는 속도 중 적어도 하나를 포함하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 제어부가 상기 프로그램을 실행시킴으로써 구현되며, 상기 영상을 입력으로서 인가받는 딥러닝 네트워크는,
상기 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출하는 공간정보 추출부;
상기 추출된 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출하는 시간정보 추출부; 및
상기 공간정보 추출부 및 시간정보 추출부의 출력에 기초하여, 상기 다음 동작에 대한 의도를 결과값으로서 출력하는 의도 출력부를 포함하는 것을 특징으로 하는 장치.
제20항에 있어서,
상기 제어부는,
상기 예측된 의도에 따라서, 상기 입출력부를 통해 상기 사용자의 움직임을 보조하는 장치에 구동신호를 인가하는 것을 특징으로 하는 장치.
제21항에 있어서,
상기 제어부는,
상기 구동신호를 인가함에 있어서, 미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 출력되는 복수의 결과값 중에서 미리 설정된 비율 이상을 차지하는 결과값을 선택하고, 상기 선택된 결과값에 대응되는 구동신호를 인가하는 것을 특징으로 하는 장치.
제21항에 있어서,
상기 사용자가 취할 수 있는 동작은 적어도 둘 이상의 종류로 구분되며,
상기 제어부는,
상기 구동신호를 인가함에 있어서, 상기 사용자가 현재 취한 동작의 종류를 확인하고, 미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 결과값으로 출력된 의도 중에서 상기 확인된 동작의 종류와 다른 동작에 대한 의도만을 선택하고, 상기 선택된 의도에 대응되는 구동신호를 인가하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 사용자를 촬영한 영상은,
상기 사용자의 1인칭 시점에서 상기 사용자의 신체 중 적어도 일부가 나오도록 촬영한 영상인 것을 특징으로 하는 장치.