KR20200075149A

KR20200075149A - 인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법

Info

Publication number: KR20200075149A
Application number: KR1020180161011A
Authority: KR
Inventors: 조성배; 여대엽; 류용환; 유기쁨
Original assignee: 한동대학교 산학협력단
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-26
Also published as: KR102192582B1

Abstract

본 발명은 인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법에 관한 것이다. 본 발명은 사용자 동작 설정 단계와 브라우저 제어 단계로 구성되고, 상기 사용자 동작 설정 단계는, 카메라부로부터 영상을 수신하여, 수신된 영상에서 기계학습모델을 이용하여 동작 정보를 추출하는 단계와, 상기 추출된 동작 정보에 기초하여 이미지를 생성하는 단계와, 생성된 이미지를 미리 지정된 동작 중 하나로 분류하는 단계와, 분류된 분류 정보와 브라우저 동작들 중 하나를 맵핑하는 단계와, 상기 분류정보와 브라우저 동작정보를 저장하는 단계를 포함한다.

Description

인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법{Browser control method based on artificial intelligence based user motion recognition}

본 발명은 인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법에 관한 것으로, 특히 사용자 동작의 특징 정보를 머신러닝 모델을 이용하여 추출하고 이미지화하여 분류한 정보를 이용하여 브라우저의 동작을 제어할 수 있는 방법에 관한 것이다.

사용자는 웹서비스를 이용하기 위해 웹 브라우저에서 각종 명령 및 데이터를 입력하여 웹 브라우징을 행한다. 예를 들어 주소창에 URL(uniform resource locator)을 입력하거나, 검색창에 검색어를 입력하여 원하는 정보를 얻을 수 있다. 또한 뒤로 가기, 앞으로 가기, 스크롤, 새로 고침 등의 웹 브라우징 명령을 통해 여러 웹 페이지로 이동할 수 있다.

한편, 최근에는 웹 브라우징 명령을 별도의 입력장치 없이 사용자 제스처에 의해 제어하는 방법이 요청되고 있다.

선행기술로 특허공개공보 제10-2010-0017570호(장치 및 그 장치에서 모션을 인식하여 장치를 제어하기 위한 방법)는 사용자 제스처를 인식하여 장치를 제어하는 방법을 개시하고 있으나, 손 모양으로부터 알파벳 자모를 인식하는 기술에 대해 개시하고 있을 뿐이다.

본 발명이 해결하고자 하는 과제는 인공지능 기반의 사용자 동작 인식을 통해 사용자가 별도의 입력장치를 구비하지 않고 브라우저를 제어하는 방법을 제공할 수 있다.

이러한 문제점을 해결하기 위한 본 발명은 사용자 동작 설정 단계와 브라우저 제어 단계로 구성되고, 상기 사용자 동작 설정 단계는, 카메라부로부터 영상을 수신하여, 수신된 영상에서 기계학습모델을 이용하여 동작 정보를 추출하는 단계와, 상기 추출된 동작 정보에 기초하여 이미지를 생성하는 단계와, 생성된 이미지를 미리 지정된 동작 중 하나로 분류하는 단계와, 분류된 분류 정보와 브라우저 동작들 중 하나를 맵핑하는 단계와, 상기 분류정보와 브라우저 동작정보를 저장하는 단계를 포함한다.

위와 같은 과제해결수단을 통하여 본 발명은 별도의 외부 입력 장치 없이 미리 학습되고 분류된 사용자 동작 만으로 브라우저의 동작을 제어할 수 있다.

또한, 사용자가 외부 입력 장치를 사용하기 힘든 운동중이거나 발표중인 환경에서 유용하게 적용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 브라우저 제어 방법 중 사용자 동작 설정 방법을 설명하는 순서도이다.
도 2는 본 발명의 일 실시예에 따른 브라우저 제어 방법 중 브라우저 제어 방법을 설명하는 순서도이다.
도 3은 본 발명의 일 실시예에 따른 브라우저 제어 장치의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 사용자 동작 인식 방법을 설명하는 개념도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 브라우저 제어 방법 중 사용자 동작 설정 방법을 설명하는 순서도이다.

도 1을 참조하면, 브라우저 제어 방법은 사용자 동작 설정 단계와 브라우저 제어 단계를 포함한다. 사용자 동작 설정 단계는, 먼저 카메라부로부터 영상을 수신하여(S101), 수신된 영상에서 기계학습모델을 이용하여 동작 정보를 추출한다(S103). 이때, 기계학습모델은 Posenet 인공지능 모델을 이용하여 사람의 동작을 인식할 수 있다. 예컨대, 사람의 몸 전체가 나온 영상으로부터 동작 정보를 추출할 수 있다. 상기 인공지능 모델은 단일 동작 또는 다중 동작 중 하나를 추출할 수 있다. 상기 인공지능 모델은 먼저 입력 RGB 이미지를 컨볼루션 뉴럴 네트워크를 통해 공급될 수 있고, 동작, 동작신뢰도, 키포인트 위치, 키포인트 신뢰도 점수의 4가지 팩터를 모델 출력으로부터 디코딩하기 위해 사용된다. 키포인트 위치 목록과 감지된 사람에 대한 인스턴스 수준 신뢰도 점수를 포함하는 동작 객체를 반환할 수 있다. 동작 신뢰도는 동작 추출의 신뢰도를 결정하며, 0.0 ~ 1.0의 범위로 결정될 수 있다. 키포인트는 사람의 코, 눈, 귀, 어깨, 팔꿈치, 골반, 무릎, 발목 중 적어도 하나이다. 키포인트 신뢰도 점수는 예상 키포인트 위치가 정확한지 여부를 결정하며, 0.0 내지 1.0의 범위로 결정될 수 있다. 키포인트 위치는 키포인트가 감지된 원래 입력 이미지의 좌표값이다.

상기 동작 정보는 키포인트와 키포인트 위치를 포함할 수 있다. 즉, 사람의 코, 눈, 귀, 어깨, 팔꿈치, 골반, 무릎, 발목 중 적어도 하나의 좌표값을 포함할 수 있다.

이후에 상기 추출된 동작 정보에 기초하여 이미지를 생성한다(S105). 생성된 이미지를 미리 지정된 동작 중 하나로 분류한다(S107). 이미지 분류에는 MobileNet 모델과 KNN classifier를 적용하여 분류한다. 추출된 동작 정보를 미리 지정한 동작과 비교해 일정 확률 이상 일치시 해당 동작의 레이블을 할당할 수 있다. 상기 미리 지정한 동작은 양팔을 위로 벌리고 있는 자세, 한팔은 위로 다른 팔은 아래로 벌리고 있는 자세, 왼쪽 팔만 옆으로 벌리고 있는 자세, 오른쪽 팔만 옆으로 벌리고 있는 자세 중 적어도 하나일 수 있으나 이에 대해 한정하는 것은 아니다.

이후에 분류된 분류 정보와 브라우저 동작들 중 하나를 맵핑한다(S109). 상기 브라우저 동작들은 현재의 웹 페이지의 위치를 기준으로 상하좌우로 스크롤하는 동작, 현재 웹 페이지에서 재생되는 영상의 재생하는 동작, 현재 웹 페이지에서 재생되는 영상을 정지하는 동작 중 적어도 하나일 수 있다. 상기 분류정보와 브라우저 동작정보를 저장한다(S111).

도 2는 본 발명의 일 실시예에 따른 브라우저 제어 방법 중 브라우저 제어 방법을 설명하는 순서도이다. 도 2를 참조하면, 상기 브라우저 제어 단계는, 먼저 브라우저를 실행하고, 영상수신부가 카메라부로부터 영상을 수신한다(S201).

영상에서 기계학습모델을 이용하여 동작 정보를 추출한다(S203). 상기 동작 정보는 키포인트와 키포인트 위치를 포함할 수 있다. 즉, 사람의 코, 눈, 귀, 어깨, 팔꿈치, 골반, 무릎, 발목 중 적어도 하나의 좌표값을 포함할 수 있다. 이후에 추출된 동작 정보에 기초하여 이미지를 생성한다(S205). 생성된 이미지에 기초하여 저장된 브라우저 동작 정보를 검색한다(S207).

생성된 이미지와 검색된 브라우저 동작 정보를 비교하여(S209), 일치하면 브라우저 동작 정보에 기초하여 브라우저를 제어한다(S211). 이때, 생성된 이미지에 기초하여 분류된 동작과 이미 저장된 브라우저 동작정보 레이블을 비교할 수 있다.

즉, 본 발명은 별도의 외부 입력 장치 없이 미리 학습되고 분류된 사용자 동작만으로 브라우저의 동작을 제어할 수 있다.

도 3은 본 발명의 일 실시예에 따른 브라우저 제어 장치의 구성도이다.

도 3을 참조하면, 브라우저 제어 장치(100)는 영상수신부(110), 동작인식부(120), 이미지생성부(130), 분류부(140), 제어부(150), 맵핑부(160), 검색부(170), 비교부(180), 저장부(190)로 구성된다.

영상수신부(110)는 외부의 카메라로부터 촬영된 영상을 수신할 수 있다. 실시예에 따라 브라우저 제어 장치 내에 카메라가 배치되어 영상을 촬영할 수 있다.

동작인식부(120)는 수신된 영상에서 기계학습모델을 이용하여 동작 정보를 추출한다. 이때, 기계학습모델은 Posenet 인공지능 모델을 이용하여 사람의 동작을 인식할 수 있다. 예컨대, 사람의 몸 전체가 나온 영상으로부터 동작 정보를 추출할 수 있다. 상기 동작 정보는 키포인트와 키포인트 위치를 포함할 수 있다. 즉, 사람의 코, 눈, 귀, 어깨, 팔꿈치, 골반, 무릎, 발목 중 적어도 하나의 좌표값을 포함할 수 있다.

이미지생성부(130)는 동작인식부에서 추출된 동작 정보에 기초하여 이미지를 생성한다(S205).

분류부(140)는 생성된 이미지를 미리 지정된 동작 중 하나로 분류한다(S107). 이미지 분류에는 MobileNet 모델과 KNN classifier를 적용하여 분류한다. 추출된 동작 정보를 미리 지정한 동작과 비교해 일정 확률 이상 일치시 해당 동작의 레이블을 할당할 수 있다. 상기 미리 지정한 동작은 양팔을 위로 벌리고 있는 자세, 한팔은 위로 다른 팔은 아래로 벌리고 있는 자세, 왼쪽 팔만 옆으로 벌리고 있는 자세, 오른쪽 팔만 옆으로 벌리고 있는 자세 중 적어도 하나일 수 있으나 이에 대해 한정하는 것은 아니다.

제어부(150)는 브라우저 제어 장치의 각 구성을 제어한다. 비교부의 비교 결과 일치하면 브라우저 동작 정보에 기초하여 브라우저를 제어한다. 맵핑부(160)는 분류부에서 분류한 분류 정보와 브라우저 동작들 중 하나를 맵핑한다. 검색부(170)는 생성된 이미지에 기초하여 저장된 브라우저 동작 정보를 검색한다. 비교부(180)는 생성된 이미지와 검색된 브라우저 동작 정보를 비교한다. 이때, 생성된 이미지에 기초하여 분류된 동작과 이미 저장된 브라우저 동작정보 레이블을 비교할 수 있다.

저장부(190)는 분류된 분류정보와 브라우저 동작정보들을 저장한다.

도 4는 본 발명의 일 실시예에 따른 사용자 동작 인식 방법을 설명하는 개념도이다.

도 4를 참조하면, 사용자 동작 인식 방법인 PoseNet학습모델을 설명하는 개념도이다. 이미지가 입력이 되면 모바일 장치에서 실행되도록 설계된 MobileNet모델을 사용하여 학습을 수행할 수 있다. MobileNet 모델의 학습 결과는 오프셋 벡터와 히트 맵이 추출되며, 동작 키포인트에 해당하는 이미지의 높은 신뢰 영역을 찾기 위해 디코딩 될 수 있다. 이미지가 모델을 통해 공급 된 후 몇 가지 계산을 수행하여 출력에서 동작을 인식할 수 있다. 예를 들어, 키포인트 신뢰도 점수 및 좌표값을 갖는 키 포인트의 어레이를 포함하는 동작 신뢰도 점수를 출력할 수 있다.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100; 브라우저 제어 장치 110; 영상수신부
120; 동작인식부 130; 이미지생성부
140; 분류부 150; 제어부
160; 맵핑부 170; 검색부
180; 비교부 190; 저장부

Claims

인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법에 있어서,
상기 브라우저 제어 방법은 사용자 동작 설정 단계와 브라우저 제어 단계를 포함하고,
상기 사용자 동작 설정 단계는,
카메라부로부터 영상을 수신하여, 수신된 영상에서 기계학습모델을 이용하여 동작 정보를 추출하는 단계;
상기 추출된 동작 정보에 기초하여 이미지를 생성하는 단계;
생성된 이미지를 미리 지정된 동작 중 하나로 분류하는 단계;
분류된 분류 정보와 브라우저 동작들 중 하나를 맵핑하는 단계; 및
상기 분류정보와 브라우저 동작정보를 저장하는 단계를 포함하는 브라우저 제어 방법.
제1항에 있어서,
상기 브라우저 제어 단계는,
브라우저를 실행하고, 영상수신부가 카메라부로부터 영상을 수신하는 단계;
영상에서 기계학습모델을 이용하여 동작 정보를 추출하는 단계;
추출된 동작 정보에 기초하여 이미지를 생성하는 단계;
생성된 이미지에 기초하여 저장된 브라우저 동작 정보를 검색하는 단계; 및
생성된 이미지와 검색된 브라우저 동작 정보를 비교하여, 일치하면 브라우저 동작 정보에 기초하여 브라우저를 제어하는 단계를 포함하는 브라우저 제어 방법.
제1항에 있어서,
상기 동작 정보를 추출하는 단계는, Posenet 인공지능 모델을 이용하여 사람의 동작 정보를 추출하는 브라우저 제어 방법.
제1항에 있어서,
상기 동작 정보는, 사람의 코, 눈, 귀, 어깨, 팔꿈치, 골반, 무릎, 발목 중적어도 하나의 좌표값을 포함하는 브라우저 제어 방법.
제1항에 있어서,
생성된 이미지를 미리 지정된 동작 중 하나로 분류하는 단계는,
추출된 동작 정보를 미리 지정한 동작과 비교해 일정 확률 이상 일치시 해당 동작의 레이블을 할당하는 브라우저 제어 방법.