KR20230111005A

KR20230111005A - 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법

Info

Publication number: KR20230111005A
Application number: KR1020220006674A
Authority: KR
Inventors: 안하은; 이록규; 이혁재
Original assignee: 엔에이치엔클라우드 주식회사
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2023-07-25
Also published as: KR102665453B1; JP7478339B2; US20230244309A1; JP2023104899A

Abstract

본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법은, 콘텐츠 제공 장치의 적어도 하나의 프로세서에 의하여 실행되는 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법에 있어서, 이미지 센서를 기초로 유저의 얼굴인식 영상을 획득하는 단계; 상기 획득된 얼굴인식 영상을 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하는 단계; 상기 획득된 얼굴 정면뷰 영상을 기초로 상기 유저의 시선방향 및 시선 고정시간 정보를 포함하는 시선정보를 생성하는 단계; 상기 생성된 시선정보에 대응되는 디스플레이 영역을 관심영역으로 결정하는 단계; 상기 결정된 관심영역에 매칭되는 아이템을 검출하는 단계; 및 상기 검출된 아이템에 대한 상품정보 콘텐츠를 제공하는 단계를 포함한다.

Description

시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법 {APPARATUS AND METHOD FOR PROVIDING CUSTOMIZED CONTENT BASED ON GAZE RECOGNITION}

본 발명은 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법에 관한 것이다. 보다 자세하게는, 상품을 응시하는 장치 사용자의 시선인식을 기반으로 상기 장치 사용자의 관심도를 실시간으로 추정하여 맞춤형 콘텐츠를 제공하는 장치 및 방법에 관한 것이다.

정보화 시대에 있어 다양한 방식의 광고 방법 중 표시장치에 의한 광고는, 시청자의 관심도와 상관없이 일방적으로 특정 다수에 대한 광고를 제공해주는 방식이다.

시청자의 광고 상품에 대한 관심도나 개인 성향 등에 따라 광고의 효과는 천차만별이며, 광고의 효과를 높이기 위해 시청자의 취향 및 소비 패턴 등을 수집하여 개인별 맞춤형 광고를 제공하기도 한다.

그러나, 이러한 정보를 기반으로 관심도를 추측하여 맞춤형 광고를 제공하는 것은, 시청자가 실제 미디어 소비 시 느끼는 관심도를 반영해줄 수 없다는 문제점이 있다.

또한, 소정의 장치에 광고 노출이 가능한 경우에 있어, 상기 장치를 사용하는 자의 선택을 통해 관심 있는 상품에 대한 광고를 제공하는 방법이 있으나, 이는 사용자의 행동을 요구하므로 일방적 또는 자동적으로 광고를 제공하는 방법에 비해서 광고의 노출이 낮을 수밖에 없다.

따라서, 사용자가 미디어를 소비할 때, 사용자의 관심도를 즉각적으로 반영하여 자동으로 광고를 노출하는 방법이 필요한 실정이다.

KR

10-0020002

B1

본 발명은, 상기와 같은 종래 기술의 문제점을 해결하기 위해 안출된 것으로, 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은, 사용자의 신체적 특성에 따라 장치에 부착된 카메라의 시야각을 실시간으로 자동 조정하는 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법을 제공하고자 한다.

또한, 본 발명은, 사용자가 응시중인 상품에 대한 콘텐츠를 출력하는 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법을 제공하고자 한다.

또한, 본 발명은, 복수의 사용자의 수에 맞게 콘텐츠 출력 화면을 분할하는 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법을 제공하고자 한다.

다만, 본 발명 및 본 발명의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

이때, 상기 획득된 얼굴인식 영상을 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하는 단계는, 상기 얼굴인식 영상을 기 학습된 딥러닝 뉴럴 네트워크의 입력 데이터로 제공하는 단계와, 상기 딥러닝 뉴럴 네트워크의 출력 데이터로 상기 유저의 얼굴 포즈정보를 획득하는 단계와, 상기 획득된 얼굴 포즈 정보를 기초로 상기 이미지 센서를 제어하는 단계를 포함한다.

또한, 상기 생성된 시선정보에 대응되는 디스플레이 영역을 관심영역으로 결정하는 단계는, 상기 유저의 시선 고정시간 정보가 기 설정된 시간 이상을 충족하면, 상기 유저의 시선방향에 대응되는 디스플레이 영역을 상기 관심영역으로 결정하는 단계를 포함한다.

또한, 상기 결정된 관심영역에 매칭되는 아이템을 검출하는 단계는, 상기 디스플레이 영역을 기초로 출력되는 아이템페이지를 선택하는 유저 입력을 획득하는 단계와, 상기 선택된 아이템페이지 내 상기 관심영역에 매칭된 아이템을 검출하는 단계를 포함한다.

또한, 상기 시선정보에 대응되는 디스플레이 영역을 관심영역으로 결정하는 단계는, 상기 시선정보가 변경되면 상기 변경된 시선정보에 대응되는 디스플레이 영역으로 상기 관심영역을 업데이트하는 단계를 포함한다.

또한, 상기 결정된 관심영역에 매칭되는 아이템을 검출하는 단계는, 상기 관심영역에 매칭되는 디스플레이 영역 내 적어도 하나의 픽셀을 검출하는 단계와, 상기 검출된 적어도 하나의 픽셀에 대하여 기 저장된 아이템을 검출하는 단계를 포함한다.

또한, 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법은, 상기 디스플레이 영역 내 적어도 하나의 픽셀을 선택하는 유저 입력을 획득하는 단계와, 상기 선택된 적어도 하나의 픽셀에 대하여 기 저장된 아이템을 검출하는 단계와, 상기 검출된 아이템에 대한 상품정보 콘텐츠를 출력하는 단계를 더 포함한다.

한편, 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치는, 유저의 얼굴인식 영상을 획득하는 적어도 하나의 이미지 센서; 상기 획득된 얼굴인식 영상에 기초한 상품정보 콘텐츠를 출력하는 적어도 하나의 디스플레이; 적어도 하나의 프로세서; 를 포함하고, 상기 프로세서는, 상기 얼굴인식 영상을 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하고, 상기 획득된 얼굴 정면뷰 영상을 기초로 상기 유저의 시선방향 및 시선 고정시간 정보를 포함하는 시선정보를 생성하고, 상기 생성된 시선정보에 대응되는 상기 디스플레이 영역을 관심영역으로 결정하고, 상기 결정된 관심영역에 매칭되는 아이템을 검출하고, 상기 검출된 아이템에 대한 상품정보 콘텐츠를 제공한다.

또한, 상기 디스플레이는, 적어도 하나 이상의 상기 아이템에 대한 대표 이미지를 출력하는 아이템 디스플레이와, 상기 상품정보 콘텐츠를 출력하는 콘텐츠 디스플레이를 포함한다.

또한, 상기 프로세서는, 상기 얼굴인식 영상에 기반한 딥러닝을 기초로 상기 유저의 얼굴 포즈정보를 획득하고, 상기 획득된 얼굴 포즈정보를 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득한다.

본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법은, 사용자의 신체적 특성에 따라 장치에 부착된 카메라의 시야각을 실시간으로 자동 조정함으로써 사용자가 바뀔 때마다 사용자에 맞는 초기 세팅 수행에 소요되는 시간을 단축하는 효과가 있다.

또한, 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법은 사용자가 응시중인 상품에 대한 콘텐츠를 출력함으로써 사용자의 관심 상품을 직관적으로 파악하여 콘텐츠 노출에 따른 사용자의 만족도를 향상시키는 효과가 있다.

또한, 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법은 복수의 사용자 수에 맞게 콘텐츠 출력 화면을 분할함으로써 콘텐츠 출력 화면을 효율적으로 사용하여 각 사용자에게 광고 및 정보의 전달력을 상승시키는 효과가 있다.

다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 명확하게 이해될 수 있다.

도 1은 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치의 내부 블록도이다.
도 2는 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치를 설명하기 위한 도면의 일례이다.
도 3은 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시예에 따른 얼굴 키포인트(key point)를 추정하는 방법을 설명하기 위한 도면의 일례이다.
도 5는 본 발명의 실시예에 따른 시선 방향을 추적하기 위한 시선정보를 설명하기 위한 도면의 일례이다.
도 6은 본 발명의 실시예에 따른 시선정보를 기초로 관심영역을 설정하는 방법을 설명하기 위한 도면의 일례이다.
도 7은 본 발명의 다른 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 다른 실시예에 따라 복수의 시선인식 기반 맞춤형 콘텐츠가 출력되는 모습을 나타낸 일례이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치는, 유저를 촬영한 영상을 기초로 상기 장치에 부착된 카메라의 앵글을 실시간으로 자동 조정하여 상기 유저의 시선을 인식하고, 상기 유저가 응시중인 아이템에 대한 상품정보를 포함하는 콘텐츠인 시선인식 기반 맞춤형 콘텐츠를 제공할 수 있다.

실시예에서 아이템이란, 시선인식 기반 맞춤형 콘텐츠 제공 장치를 이용하여 상기 장치를 이용하는 유저에게 판매될 수 있는 물품 및 서비스 등을 의미한다.

또한, 실시예에서 상품정보란, 상기 장치를 이용하여 유저에게 판매될 수 있는 아이템에 대한 광고 및 부가정보 등을 의미한다.

- 시선인식 기반 맞춤형 콘텐츠 제공 장치(100: Device for providing customized contents based on gaze recognition)

도 1은 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치(이하, 콘텐츠 제공 장치(100))의 내부 블록도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 콘텐츠 제공 장치(100)는, 시선인식 기반 맞춤형 콘텐츠를 제공하는 프로세서 어셈블리(120)가 설치된 소정의 컴퓨팅 장치일 수 있다.

실시예에서 콘텐츠 제공 장치(100)는, 유저가 선택한 소정의 아이템을 구매할 수 있는 구매 환경을 제공할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 유저가 응시하는 아이템에 대한 광고 및 부가정보를 포함하는 콘텐츠를 상기 장치에 포함된 디스플레이로 출력하는 콘텐츠 출력 환경을 제공할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 유저의 정면을 촬영한 영상을 획득할 수 있다.

이러한 콘텐츠 제공 장치(100)는, 소비자가 일반적으로 아이템을 구매하는 환경에서 이용하기 용이한 자동 판매기(Vending machine, 이하 자판기) 또는 키오스크(Kiosk)로 구현됨이 가장 바람직한 실시예일 수 있으며, 이하의 실시예서는 상기 콘텐츠 제공 장치(100)를 상기 자판기 타입에 기준하여 설명하나 이에 한정되는 것은 아니다.

실시예에서, 프로세서 어셈블리(120)는, 상술된 콘텐츠 제공 장치(100)에 설치되어 상기 콘텐츠 제공 장치(100)에서 수행하는 각종 기능동작을 수행할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 콘텐츠 출력 환경을 제공하기 위해 소정의 서버(Server) 컴퓨팅 디바이스를 더 포함할 수도 있다.

한편, 도 1을 더 참조하면, 기능적 관점에서 콘텐츠 제공 장치(100)는, 메모리(110), 프로세서 어셈블리(120), 통신 프로세서(130), 결제부(140), 입력 시스템(150), 센서 시스템(160) 및 디스플레이 시스템(170) 및 토출부(180)를 포함할 수 있다. 이러한 구성요소들은 콘텐츠 제공 장치(100)의 하우징 내에 포함되도록 구성될 수 있다.

자세히, 메모리(110)에는, 상품정보 데이터베이스(111)가 저장되며, 상기 상품정보 데이터베이스(111)에는 콘텐츠 출력 환경을 제공하기 위한 각종 응용 프로그램, 데이터 및 명령어 중 어느 하나 이상이 저장될 수 있다.

이때, 실시예에서 상품정보 데이터베이스(111)는, 콘텐츠 제공 장치(100)를 통해 판매하는 아이템 각각에 대한 상품정보가 기 저장된 데이터 집합체를 의미한다.

즉, 메모리(110)는, 콘텐츠 출력 환경을 생성하기 위하여 사용될 수 있는 명령 및 데이터를 저장할 수 있다.

또한, 상기 메모리(110)는, 프로그램 영역과 데이터 영역을 포함할 수 있다.

여기서, 실시예에 따른 프로그램 영역은, 콘텐츠 제공 장치(100)을 부팅하는 운영체제(OS: Operating System) 및 기능요소들 사이에 연계될 수 있으며, 데이터 영역은, 콘텐츠 제공 장치(100)의 사용에 따라 발생하는 데이터가 저장될 수 있다.

또한, 메모리(110)는, 적어도 하나 이상의 비일시적 컴퓨터 판독 가능 저장매체와, 일시적 컴퓨터 판독 가능 저장매체를 포함할 수 있다.

예를 들어, 메모리(110)는, ROM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기일 수 있고, 인터넷(internet) 상에서 상기 메모리(110)의 저장 기능을 수행하는 웹 스토리지(web storage)를 포함할 수 있다.

프로세서 어셈블리(120)는, 구매 환경 및 콘텐츠 출력 환경을 제공하기 위한 다양한 작업을 수행하기 위해, 메모리(110)에 저장된 상품정보 데이터베이스(111)의 명령들을 실행할 수 있는 적어도 하나 이상의 프로세서를 포함할 수 있다.

실시예에서 프로세서 어셈블리(120)는, 맞춤형 콘텐츠를 제공하기 위하여 메모리(110)의 상품정보 데이터베이스(111)를 통해 구성요소의 전반적인 동작을 컨트롤할 수 있다.

이러한 프로세서 어셈블리(120)는, 중앙처리장치(CPU) 및/또는 그래픽처리장치(GPU) 등이 포함된 콘텐츠 제공 장치(100)에 적합한 시스템 온 칩(SOC)일 수 있으며, 메모리(110)에 저장된 운영체제(OS) 및/또는 애플리케이션 프로그램 등을 실행할 수 있고, 콘텐츠 제공 장치(100)에 탑재된 각 구성요소들을 제어할 수 있다.

또한, 프로세서 어셈블리(120)는, 각 구성요소와 내부적으로 시스템 버스(System Bus)에 의해 통신을 수행할 수 있고, 로컬 버스(Local Bus)를 비롯한 소정의 버스 구조들을 하나 이상 포함할 수 있다.

또한, 프로세서 어셈블리(120)는, ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세스(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 포함하여 구현될 수 있다.

통신 프로세서(130)는, 외부의 장치와 통신하기 위한 하나 이상의 장치를 포함할 수 있다. 이러한 통신 프로세서(130)는, 무선 네트워크를 통해 통신할 수 있다.

자세히, 통신 프로세서(130)는, 콘텐츠 출력 환경을 구현하기 위한 콘텐츠 소스를 저장한 소정의 컴퓨팅 장치와 통신할 수 있으며, 사용자 입력을 받은 컨트롤러와 같은 다양한 사용자 입력 컴포넌트와 통신할 수 있다.

실시예에서, 통신 프로세서(130)는, 맞춤형 콘텐츠와 관련된 각종 데이터를 타 콘텐츠 제공 장치(100) 및/또는 외부의 서버 등과 송수신할 수 있다.

자세히, 실시예에서 통신 프로세서(130)는, OTT(Over The Top, 온라인 동영상 서비스)를 이용하여 타 외부장치 및 외부서버 등과 통신함으로써 유저가 선택한 아이템에 대한 콘텐츠를 수신할 수 있다.

이러한 통신 프로세서(130)는, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced),5G NR(New Radio), WIFI) 또는 근거리 통신방식 등을 수행할 수 있는 통신장치를 통해 구축된 이동 통신망 상에서 기지국, 외부의 콘텐츠 제공 장치(100), 임의의 서버 중 적어도 하나와 무선으로 데이터를 송수신할 수 있다.

센서 시스템(160)은, 이미지 센서(161) 및 오디오 센서(165) 등 다양한 센서를 포함할 수 있다.

여기서, 이미지 센서(161)는, 콘텐츠 제공 장치(100) 주위의 물리적 공간에 대한 이미지 및/또는 영상을 캡처할 수 있다.

실시예에서, 이미지 센서(161)는, 맞춤형 콘텐츠와 관련된 영상(실시예로, 유저의 얼굴인식 영상, 얼굴 정면뷰 영상 등)을 촬영하여 획득할 수 있다.

또한, 이미지 센서(161)는, 콘텐츠 제공 장치(100)의 전면 또는/및 후면에 배치되어 배치된 방향측을 촬영하여 영상을 획득할 수 있으며, 콘텐츠 제공 장치(100)의 외부를 향해 배치된 카메라를 통해 물리적 공간을 촬영할 수 있다.

이때, 실시예에서 카메라는, 유저의 얼굴 위치를 인지하여 각도를 조정할 수 있도록 소정의 각도 조정이 가능한 형태로 구현되는 카메라일 수 있다.

또한, 실시예에서 카메라는 소정의 각도를 조정하는 역할을 수행하기 위한 모터를 더 포함할 수 있다.

이러한 이미지 센서(161)는, 이미지 센서장치와 영상 처리 모듈을 포함할 수 있다. 자세히, 이미지 센서(161)는, 이미지 센서장치(예를 들면, CMOS 또는 CCD)에 의해 얻어지는 정지영상 또는 동영상을 처리할 수 있다.

또한, 이미지 센서(161)는, 영상 처리 모듈을 이용하여 이미지 센서장치를 통해 획득된 정지영상 또는 동영상을 가공해 필요한 정보를 추출하고, 추출된 정보를 프로세서에 전달할 수 있다.

이러한 이미지 센서(161)는, 적어도 하나 이상의 카메라를 포함하는 카메라 어셈블리일 수 있다. 카메라 어셈블리는, 가시광선 대역을 촬영하는 일반 카메라를 포함할 수 있으며, 적외선 카메라, 스테레오 카메라 등의 특수 카메라를 더 포함할 수 있다.

또한, 위와 같은 이미지 센서(161)는, 실시예에 따라서 콘텐츠 제공 장치(100)에 포함되어 동작할 수도 있고, 외부의 장치(예컨대, 외부의 서버 등)에 포함되어 상술된 통신 프로세서(130) 등에 기초한 연동을 통하여 동작할 수도 있다.

오디오 센서(165)는, 콘텐츠 제공 장치(100) 주변의 소리를 인식할 수 있다.

자세히, 오디오 센서(165)는, 콘텐츠 제공 장치(100)을 사용하는 사용자의 음성 입력 및/또는 콘텐츠 제공 장치(100)의 주변 환경으로부터 감지되는 오디오 신호 등을 감지할 수 있는 마이크로폰을 포함할 수 있다.

결제부(140)는, 콘텐츠 제공 장치(100)를 통해 유저가 선택한 소정의 아이템을 구매 및 이용하는 비용에 대한 결제와 관련된 행위 전반을 수행할 수 있다.

상기 결제부(140)는 자판기라면 어느 것이든지 갖추어야 하는 것으로서, 실시예에서 결제부(140)는 현금 투입구, 카드 투입구, 카드 리더기 및 투입금액 인식부 등을 포함할 수 있으나 결제와 관련된 행위를 수행하는 구성이라면 어느 구성도 추가될 수 있다.

입력 시스템(150)은 맞춤형 콘텐츠와 관련된 사용자의 입력(예를 들어, 제스처, 음성 명령, 버튼의 작동 또는 다른 유형의 입력)을 감지할 수 있다.

자세히, 입력 시스템(150)은 소정의 버튼, 터치 센서 및/또는 사용자 모션 입력을 수신하는 이미지 센서(161) 등을 포함할 수 있다.

상기 입력 시스템(150)은 자판기라면 어느 것이든지 갖추어야 하는 것으로서, 실시예에서 입력 시스템(150)은 버튼, 터치 센서 및 터치 스크린으로 구현될 수 있으나 유저가 선택하는 아이템에 대한 입력을 수행할 수 있는 구성이라면 어느 구성도 추가될 수 있다.

디스플레이 시스템(170)은, 맞춤형 콘텐츠와 관련된 다양한 정보를 그래픽 이미지로 출력할 수 있다.

실시예에서, 디스플레이 시스템(170)은, 디스플레이를 이용하여 유저의 얼굴인식 영상, 얼굴 정면뷰 영상, 촬영위치 피드백 정보, 피드백 메시지 및 아이템 콘텐츠 등을 표시할 수 있다.

이러한 디스플레이는, 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다.

이러한 콘텐츠 제공 장치(100)의 하우징 내에는 상기 구성요소들이 배치될 수 있으며, 사용자 인터페이스는 사용자 터치 입력을 수신하도록 구성된 디스플레이(171) 상에 터치 센서(173)를 포함할 수 있다.

자세히, 디스플레이 시스템(170)은, 이미지를 출력하는 디스플레이(171)와, 사용자의 터치 입력을 감지하는 터치 센서(173)를 포함할 수 있다.

예시적으로 디스플레이(171)는 터치 센서(173)와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린으로 구현될 수 있다. 이러한 터치 스크린은, 콘텐츠 제공 장치(100)과 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 콘텐츠 제공 장치(100)과 사용자 사이의 출력 인터페이스를 제공할 수 있다.

토출부(180)는, 콘텐츠 제공 장치(100)를 이용한 유저에게 제공될 수 있는 소정의 물품을 장치 외부로 배출할 수 있다.

상기 토출부(180)는, 자판기라면 어느 것이든지 갖추어야 하는 것으로서, 실시예에서 토출부(180)는 유저가 구매한 물품, 거스름돈 및 영수증 등을 장치 외부로 배출할 수 있으며 토출과 관련된 행위를 수행하는 구성이라면 어느 구성으로라도 구현될 수 있다.

한편, 본 발명의 실시예에 따른 콘텐츠 제공 장치(100)는, 딥러닝 뉴럴 네트워크(Deep-learning Neural Network)와 연동하여 맞춤형 콘텐츠 제공에 필요한 딥러닝을 수행할 수 있다.

여기서, 실시예에 따른 상기 딥러닝 뉴럴 네트워크는, 컨볼루션 뉴럴 네트워크(CNN, Convolution Neural Network), R-CNN(Regions with CNN features), Fast R-CNN, Faster R-CNN 및/또는 Mask R-CNN 등을 포함할 수 있으며, 후술되는 실시예를 수행할 수 있는 알고리즘을 포함하는 딥러닝 뉴럴 네트워크라면 어떠한 것이든 포함할 수 있으며, 본 발명의 실시예에서는 이러한 딥러닝 뉴럴 네트워크 자체를 한정하거나 제한하지는 않는다.

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 상술한 딥러닝 뉴럴 네트워크를 기초로 한 Pose Estimation Model 및 Gaze Estimation Model을 이용하여 맞춤형 콘텐츠 제공에 필요한 딥러닝을 수행할 수 있다.

이때, Pose Estimation Model은 Whole-Body Human Pose Estimation in the Wild 및 RMPE: Regional Multi-Person Pose Estimation 논문을 이용하여 설계한 모델이다.

또한, Gaze Estimation Model은 Learning to Find Eye Region Landmarks for Remote Gaze Estimation in Unconstrained Settings 및 Gaze360: Physically Unconstrained Gaze Estimation in the Wild 논문을 이용하여 설계한 모델이다.

이러한 딥러닝 기술을 이용하여, 실시예에 따른 콘텐츠 제공 장치(100)는, 유저의 초기 카메라 위치를 실시간으로 자동 조정할 수 있다.

또한, 이러한 딥러닝 기술을 이용하여, 실시예에 따른 콘텐츠 제공 장치(100)는, 실시간으로 시선 추적 대상이 되는 유저를 판단하고 자동으로 상기 유저의 시선을 추적할 수 있다.

도 2는 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치(100)를 설명하기 위한 도면의 일례이다.

도 2를 참조하면, 콘텐츠 제공 장치(100)는, 일측에 결제부(140), 이미지 센서(161), 디스플레이(171) 및 토출부(180)를 포함할 수 있다.

이미지 센서(161)는, 유저(1)의 시선을 인식하기 위하여 유저(1)에게 판매하고자 하는 아이템 및 아이템 이미지가 진열된 일측과 동일한 일측에 포함될 수 있다.

또한, 디스플레이(171)는, 콘텐츠 디스플레이(171-1) 및 아이템 디스플레이(171-2)를 포함할 수 있다.

실시예에서 콘텐츠 디스플레이(171-1)란, 유저(1)의 시선을 인식하여 유저(1)의 시선이 도달하는 아이템에 대한 상품정보를 포함하는 콘텐츠가 출력되는 디스플레이를 의미한다.

또한, 실시예에서 아이템 디스플레이(171-2)란, 유저(1)에게 판매하고자 하는 아이템을 대표하는 이미지가 출력되는 디스플레이를 의미한다. 이때, 아이템 디스플레이(171-2) 영역 내에는 소정의 버튼이 위치하거나 상기 영역의 일부 또는 전부에 터치 센서(173)가 내장될 수 있다.

즉, 이에 따라 콘텐츠 제공 장치(100)는, 아이템 디스플레이(171-2)를 기초로 유저(1)의 입력을 수신할 수 있는 사용자 인터페이스를 제공할 수 있다.

또한, 결제부(140) 및 토출부(180)는 유저(1)가 사용하기 용이한 위치라면 콘텐츠 제공 장치(100)상 어디든 위치할 수 있고, 도시된 바에 한정하는 것은 아니다.

- 콘텐츠 제공 장치(100)가 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법

이하, 본 발명의 실시예에 따라 적어도 하나 이상의 프로세서를 포함하는 프로세서 어셈블리(120)에 의하여 실행되는 콘텐츠 제공 장치(100)가 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법을 첨부된 도 3 내지 도 7을 참조하여 상세히 설명한다.

도 3은 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 콘텐츠 제공 장치(100)는, 유저(1)의 접근을 인식할 수 있다. (S101)

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 상기 장치(100)에 부착된 이미지 센서(161)를 이용하여 유저(1)의 접근을 인식할 수 있다.

이때, 실시예에서 콘텐츠 제공 장치(100)는, 기설정된 정상 접근 기준정보에 부합하도록 유저(1)의 상태를 변동시킬 수 있다.

여기서, 실시예에 따른 정상 접근 기준정보는, 콘텐츠 제공 장치(100)를 이용하고자 하는 유저(1)에게 요구되는 초기 위치정보 및 초기 용모정보를 포함할 수 있다.

이때, 초기 위치정보란, 유저(1)의 배치 상태(실시예로, 위치 및 각도 등)을 안내하는 정보일 수 있다. 또한, 초기 용모정보란, 유저(1)의 용모 상태(실시예로, 눈 및 얼굴의 인식을 위한 용모)를 안내하는 정보일 수 있다.

자세히, 콘텐츠 제공 장치(100)는, 상기 장치 관리자의 설정 및 기설정된 프로세스에 따라서 소정의 초기 위치정보 및 초기 용모정보를 기구축할 수 있다.

실시예로, 초기 위치정보는, 유저(1)의 얼굴을 촬영할 수 있는 소정의 위치를 안내하도록 기설정될 수 있다. 또한, 초기 용모정보는, 유저(1)가 콘텐츠 제공 장치(100)를 이용하면서 유지하도록 요구되는 소정의 용모 상태(예컨대 모자 및 선글라스 등을 미착용한 상태 등)를 안내하도록 기설정될 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 위와 같이 기설정된 정상 접근 기준정보를 기초로 접근 피드백 정보를 생성하여 디스플레이(171)를 통해 출력하여 유저(1)에게 제공할 수 있다.

여기서, 접근 피드백 정보란, 유저(1)의 모습 촬영 시 촬영환경 조건을 충족하는 위치에서 얼굴인식 영상을 획득하도록 유저(1)의 상태(실시예에서, 위치, 각도 및 용모 등)의 조정/변경을 안내하는 정보를 의미할 수 있다.

이때, 촬영환경 조건은, 콘텐츠 제공 장치(100)를 이용하는 유저(1)의 얼굴영역을 용이하게 추정하기 위한 조건으로서, 실시예에서는 유저(1)의 얼굴 키포인트 및 시선정보를 획득하기 용이한 조건일 수 있고 이에 대한 자세한 설명은 후술하도록 한다.

예를 들어, 도 2를 다시 참조하면, 콘텐츠 제공 장치(100)는, 촬영환경 조건과 관련된 “Area 안에 위치하세요.”, “이미지 센서(161)를 바라보세요.” 및 “모자를 벗어주세요.” 등과 같은 접근 피드백 정보를 디스플레이(171)를 통해 텍스트화하여 출력함으로써 유저(1)의 위치, 각도 및 용모를 조정할 수 있다.

이와 같은 방법으로, 실시예에서 콘텐츠 제공 장치(100)는, 이미지 센서(161)를 이용하여 유저(1)의 얼굴인식 영상(10)을 촬영 및 획득할 수 있다.

이때, 실시예에서 얼굴인식 영상(10)이란, 유저의 얼굴영역을 판단하기 위해 유저가 콘텐츠 제공 장치(100)와 소정 거리 가까이 접근했을 때 유저의 얼굴을 인식한 영상을 의미한다.

다음으로, 실시예에서 콘텐츠 제공 장치(100)는, 카메라 앵글을 조정하여 얼굴 정면뷰 영상을 획득할 수 있다. (S103)

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 얼굴인식 영상(10)을 기초로 딥러닝 모델을 통해 유저의 얼굴영역을 판단하고 이에 따라 카메라에 포함된 모터를 이용하여 카메라의 위치 및 앵글을 조정함으로써 얼굴 정면뷰 영상을 획득할 수 있다.

이때, 콘텐츠 제공 장치(100)는, 딥러닝 모델 중 Pose Estimation Model을 이용하여 유저(1)의 얼굴 키포인트를 검출할 수 있다.

도 4는 본 발명의 실시예에 따른 얼굴 키포인트(key point)(30)를 추정하는 방법을 설명하기 위한 도면의 일례이다.

도 4를 참조하면, 콘텐츠 제공 장치(100)는, 획득한 유저(1)의 얼굴인식 영상(10)을 기초로 딥러닝 분석을 수행하여 얼굴인식 영상(10) 내 얼굴 키포인트(30)를 검출할 수 있다.

여기서, 실시예에 따른 얼굴 키포인트(30)는, 유저(1)의 얼굴 형상을 특정할 수 있는 적어도 하나 이상의 키포인트 및 서브 키포인트(31)를 포함할 수 있다.

실시예로, 상기 얼굴 키포인트(30)는, 응시자의 눈 형상을 특정하는 눈 키포인트, 코 형상을 특정하는 코 키포인트, 입 형상을 특정하는 입 키포인트 및/또는 귀 형상을 특정하는 귀 키포인트 등을 포함하며, 상술한 적어도 하나 이상의 키포인트는 서브 키포인트(31)로 연결될 수 있다.

즉, 실시예에서 콘텐츠 제공 장치(100)는, 소정의 딥러닝 뉴럴 네트워크와 연동하여 얼굴인식 영상(10)으로부터 유저(1)의 얼굴 키포인트를 추출하는 검출 딥러닝을 수행할 수 있다.

또한, 콘텐츠 제공 장치(100)는, 상기 딥러닝 뉴럴 네트워크의 출력 데이터로서 상기 추출된 유저(1)의 복수의 얼굴 키포인트를 기초로 유저(1)의 얼굴 방향 및 각도 등을 포함하는 정보인 얼굴 포즈정보를 획득할 수 있다.

즉, S101 단계에서 상술한 촬영환경 조건은, 유저(1)의 얼굴 형상을 특정하는 얼굴 키포인트(30)를 모두 포함하는 조건과, 상기 얼굴 키포인트(30)에 기초한 픽셀면적이 소정의 기준(예컨대, 기설정된 픽셀면적 이상 및 얼굴인식 영상(10) 전체 픽셀면적 대비 기설정된 비율 이상 등)을 충족하는 조건을 포함할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 검출된 유저(1)의 얼굴 키포인트를 기초로 유저(1)의 얼굴 방향 및 각도 등을 포함하는 정보인 얼굴 포즈정보를 획득할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 획득된 유저(1)의 얼굴 포즈정보를 기초로 이미지 센서를 제어할 수 있다.

이미지 센서 제어를 수행하기 위해, 콘텐츠 제공 장치(100)는, 소정의 얼굴 키포인트를 기초로 한 표준 정면 얼굴영역 정보를 설정해놓을 수 있다.

실시예로, 콘텐츠 제공 장치(100)는, 소정의 얼굴 키포인트 간 군집도(실시예로, 소정의 길이(예컨대, 간격 0.1cm 및 오차범위 ±5% 등)의 기준 간격, 소정의 넓이(예컨대, 3제곱센치미터(cm²) 및 오차범위 ±5% 등)의 기준 면적 등), 소정의 얼굴 키포인트의 개수 및/또는 존재유무 등을 포함하는 표준 정면 얼굴영역 정보를 기 설정해놓을 수 있다.

즉, 콘텐츠 제공 장치(100)는, 획득된 유저(1)의 얼굴 포즈정보 및 기 설정된 표준 정면 얼굴영역 정보를 비교하여, 오차값에 따라 상기 얼굴 포즈정보를 획득할 수 있다.

또한, 콘텐츠 제공 장치(100)는, 상기 획득된 얼굴 포즈정보를 토대로 상술된 이미지 센서를 제어함으로써 유저(1)의 얼굴 정면 모습을 포함하는 얼굴 정면뷰 영상을 획득할 수 있다.

또한, 촬영환경 조건에 따라 실시예에서 콘텐츠 제공 장치(100)는, 얼굴인식 영상(10)에 인식된 유저(1)의 얼굴영역(FA)이 복수개인 경우, 인식된 복수개의 얼굴영역(FA) 중 소정의 크기(예컨대, 3제곱센치미터(cm²)) 이하인 얼굴영역(FA)을 판단 대상에서 제외할 수 있다.

예컨대, 콘텐츠 제공 장치(100)를 이용하고자 하는 유저가 2명 이상이고 이용 차례가 아닌 유저의 얼굴영역이 인식된 경우, 상기 이용 차례가 아닌 유저의 얼굴영역을 판단 대상에서 제외함으로써, 이용 차례인 유저의 얼굴영역(FA)만을 인식할 수 있다.

또한, 콘텐츠 제공 장치(100)는, 유저(1)의 얼굴영역(FA)을 실시간 및 자동으로 판단할 수 있으며, 이에 따라 카메라의 앵글을 실시간 및 자동으로 변경할 수 있다.

즉, 콘텐츠 제공 장치(100)는, 판단된 유저(1)의 얼굴영역(FA)을 정상적으로 인식하기 위해 카메라에 포함된 모터를 이용하여 카메라의 시야각을 변동시킴으로써 실시간 및 자동으로 유저(1)에 맞게 카메라의 앵글을 조정할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 카메라의 앵글을 조정함으로써 유저(1)의 얼굴 정면뷰 영상을 획득할 수 있다.

이때, 얼굴 정면뷰 영상(20)이란, 유저(1)의 시선정보(40)를 획득하기 위한 것으로, 얼굴인식 영상(10)을 기초로 유저의 눈, 코, 입이 잘 나타나도록 카메라의 앵글을 조정함으로써 획득된 유저(1)의 얼굴 정면 모습을 포함한 영상을 의미할 수 있다.

다음으로, 실시예에서 콘텐츠 제공 장치(100)는, 유저(1)의 시선을 추적하여 시선정보(40)를 생성할 수 있다. (S105)

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 유저(1)의 얼굴영역(FA)에 포함된 눈 키포인트(30-E)를 기초로 유저(1)의 시선을 추적하여 시선정보(40)를 생성할 수 있다.

여기서 시선정보(40)란, 유저(1)의 시선 위치, 시선 방향 및 시선 고정 시간(예컨대, 초(second)) 등을 추정한 정보로, 유저(1)의 시선과 관련된 다양한 정보를 포함할 수 있다.

즉, 실시예에서 콘텐츠 제공 장치(100)는, 유저(1)의 얼굴 정면뷰 영상(20)을 기초로 유저(1)의 시선 방향을 추적함으로써 유저(1)의 시선정보(40)를 생성할 수 있다.

도 5는 본 발명의 실시예에 따른 시선 방향을 추적하기 위한 시선정보(40)를 설명하기 위한 도면의 일례이다.

도 5를 참조하면, 실시예에서 콘텐츠 제공 장치(100)는, 얼굴 정면뷰 영상(20)에 포함된 눈 키포인트(30-E)를 기초로 유저(1)의 시선 방향을 추적할 수 있다.

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 얼굴 정면뷰 영상(20)이 포함하는 복수의 얼굴 키포인트(30) 중에서, 유저(1)의 시선정보를 제공하는 눈 키포인트(30-E)를 기초로 유저(1)의 시선 방향을 추적할 수 있다.

이때, 얼굴 정면뷰 영상(10)은 유저(1)가 콘텐츠 제공 장치(100)를 이용하면서 구매 결정을 내리는 동안의 모습을 포함하고, 눈 키포인트(30-E)는, S103 단계의 소정의 딥러닝 학습 과정(실시예에서, Pose Estimation Model을 이용)을 거쳐 얼굴영역(FA)에서 눈의 위치를 추정함으로써 검출될 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 검출되는 눈 키포인트(30-E)를 통해 유저(1)의 시선을 지속적으로 추적한 정보인 시선정보(40)를 생성할 수 있다.

여기서, 실시예에서 콘텐츠 제공 장치(100)는, 소정의 딥러닝 학습 과정(실시예에서, Gaze Estimation Model을 이용)을 거쳐 유저(1)의 시선 위치 및 방향을 추정하여 시선정보(40)를 생성할 수 있다.

이때, 실시예에서 콘텐츠 제공 장치(100)는, 생성된 시선정보(40)에 포함된 유저(1)의 시선 고정 시간이 소정의 시간 이상(예컨대, 0.5초 이상 등)인 경우, 상기 시선 고정 시간을 관심시간으로 설정할 수 있다.

여기서, 실시예에서 콘텐츠 제공 장치(100)는, 관심시간으로 설정된 시선 고정 시간이 복수인 경우, 그 중 가장 긴 시간만을 관심시간으로 간주하여 설정할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 생성된 시선정보(40)를 기초로 관심영역을 판단할 수 있다. (S107)

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 생성된 시선정보(40)에 포함된 관심시간을 기초로 관심영역을 판단할 수 있다.

도 6은 본 발명의 실시예에 따른 시선정보(40)를 기초로 관심영역을 설정하는 방법을 설명하기 위한 도면의 일례이다.

도 6을 참조하면, 콘텐츠 제공 장치(100)는, 유저(1)가 콘텐츠 제공 장치(100)의 아이템 디스플레이(171-2) 상에 출력된 적어도 하나 이상의 아이템 중 어떤 아이템을 응시했는지 시선정보(40)에 포함된 관심시간을 기초로 관심영역을 판단할 수 있다.

다시 말해, 실시예에서 관심영역이란 유저(1)의 시선이 소정의 시간 이상 머문 영역으로, 관심시간을 기초로 판단될 수 있다.

자세히, 도 6은 설명의 편의를 위해 콘텐츠 제공 장치(100)에 부착된 이미지 센서 관점이 아닌 유저(1) 관점의 시선정보(40)일 수 있다. 즉, 도 6에 도시된 시선정보(40)는 유저의 시선으로 간주할 수 있다.

이때, 시선정보(40)에 포함된 (a) 및 (b)는 관심시간을 기초로 판단된 관심영역일 수 있다. (a) 및 (b)의 크기는 관심시간에 비례하고, 상술한 바에 따라 실시예에서 콘텐츠 제공 장치(100)는 더 큰 관심시간이 설정된 (b)가 형성된 영역을 관심영역으로 판단할 수 있다.

또한, 여기서 판단되는 관심영역은 콘텐츠 제공 장치(100)의 아이템 디스플레이(171-2) 상에 출력된 적어도 하나 이상의 아이템 이미지(IMG) 상에 위치할 수 있다.

또한, 콘텐츠 제공 장치(100)는 유저(1)가 적어도 한 명 이상인 경우, 상기 시선정보(40)를 유저(1)의 수에 비례하는 개수로 생성할 수 있다.

다시 돌아와서, 실시예에서 콘텐츠 제공 장치(100)는, 판단된 관심영역과 일치율이 높은 픽셀면적(PA)을 도출할 수 있다. (S109)

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 판단된 관심영역 및 아이템 디스플레이(171-2)에 포함된 픽셀면적(PA)과의 일치율을 비교함으로써 복수의 픽셀면적(PA) 중 일치율이 가장 높은 제1 픽셀면적(PA-1)을 도출할 수 있다.

여기서, 픽셀면적(PA)이란, 복수의 아이템이 진열되거나 아이템 이미지(IMG)가 노출된 아이템 디스플레이(171-2)에서 각 아이템이 위치한 소정의 영역을 의미한다.

즉, 이를 위해 실시예에서 콘텐츠 제공 장치(100)는, 각 픽셀면적(PA)마다 아이템 및 아이템 이미지(IMG)를 개별적으로 매칭하여 적어도 하나 이상의 픽셀면적(PA)을 기설정할 수 있다.

또한, 아이템 이미지(IMG)란, 콘텐츠 제공 장치(100)를 이용하여 상기 장치를 이용하는 유저에게 판매될 수 있는 아이템에 대한 대표 이미지를 의미하며, 아이템 디스플레이(171-2) 상에 적어도 하나 이상 출력될 수 있다.

따라서, 픽셀면적(PA) 및 아이템 이미지(IMG)는 콘텐츠 제공 장치(100)에서 제공하는 아이템 개수에 상응하는 개수만큼 존재할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 아이템 디스플레이(171-2)를 기설정된 비율로 나누어(예컨대, 9분할) 나뉜 각 영역을 픽셀면적(PA)이라고 설정하는 방법 및 각 아이템 이미지(IMG)와 인접하는 소정의 영역(예컨대, 아이템 이미지(IMG)를 포함하는 사각형 영역)을 픽셀면적(PA)이라고 설정하는 방법 등을 이용하여 픽셀면적(PA)을 기설정할 수 있다.

본 발명의 실시예에서는 콘텐츠 제공 장치(100)가 후자의 방법을 이용하여 픽셀면적(PA)을 기설정하는 방법을 기준으로 도면에 도시 및 서술하나, 픽셀면적(PA)을 기설정하는 방법은 이에 한정하지 않고 다양한 실시예가 존재할 수 있다.

실시예에서 콘텐츠 제공 장치(100)는, 아이템 디스플레이(171-2)에 포함된 복수의 픽셀면적(PA) 및 판단된 유저(1)의 관심영역의 일치율을 비교하여 일치율이 가장 높은 제1 픽셀면적(PA-1)을 도출할 수 있다.

다시 도 6을 참조하면, 실시예에서 콘텐츠 제공 장치(100)는, 판매중인 아이템의 개수에 상응하는 개수만큼(예컨대, 도 6 기준으로 9개)의 픽셀면적(PA)을 기설정할 수 있다. 이때, 각각의 픽셀면적(PA)에는 하나의 아이템 및 아이템 이미지(IMG)가 포함될 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 유저의 관심영역인 (b)와 일치율이 가장 높은 제1 픽셀면적(예컨대, 도 6에서 PA-1)을 도출할 수 있다.

이때, 실시예에서 콘텐츠 제공 장치(100)는, 복수의 픽셀면적(PA) 중 관심영역과 일치율이 가장 높은(예컨대, 일치율 80% 이상) 제1 픽셀면적(PA-1)을 도출할 수 있다.

다음으로, 실시예에서 콘텐츠 제공 장치(100)는, 도출된 픽셀면적(PA)에 매칭된 아이템을 검출할 수 있다. (S111)

이를 위해, 실시예에서 콘텐츠 제공 장치(100)는, 각 픽셀면적(PA)마다 매칭된 아이템을 유저(1)가 응시중인 아이템이라고 판단함으로써 검출할 수 있다.

즉, 실시예에서 콘텐츠 제공 장치(100)는, 복수의 픽셀면적(PA) 중 관심영역과 일치율이 가장 높은 제1 픽셀면적(PA-1)을 도출하여, 도출된 제1 픽셀면적(PA-1)에 매칭된 아이템을 검출할 수 있다.

이때, 검출된 아이템은 해당 아이템에 대한 광고 및 부가정보인 상품정보를 포함할 수 있다. 이를 위해, 실시예에서 콘텐츠 제공 장치(100)는, 상기 콘텐츠 제공 장치(100)를 이용하여 유저(1)에게 판매되는 아이템 각각에 포함된 상품정보를 아이템마다 개별적으로 매칭하여 상품정보 데이터베이스(111)에 기저장 해놓을 수 있다.

한편, 아이템 디스플레이(171-2) 상에 한 번에 노출 가능한 아이템 이미지(IMG) 개수의 제한으로 복수의 아이템페이지가 존재하는 경우에도, 해당하는 아이템페이지 내 소정의 픽셀면적(PA)에 매칭된 아이템을 검출할 수 있다.

이를 위해, 실시예에서 콘텐츠 제공 장치(100)는, 입력 시스템(150)을 이용하여 유저(1)의 아이템페이지 변경 입력을 감지할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, 유저(1)의 아이템페이지 변경 입력에 따라 해당하는 아이템페이지 내 소정의 픽셀면적(PA)에 매칭된 아이템 및 아이템 이미지(IMG)를 변경할 수 있다.

이에 따라, 콘텐츠 제공 장치(100)는, 유저(1)의 입력에 의해 변경된 아이템페이지 상에서 도출된 픽셀면적(PA)에 매칭된 아이템을 검출할 수 있다.

예컨대, 다시 도 6을 참조하면, 유저(1)의 입력을 감지하여 제1 아이템페이지를 제2 아이템페이지로 변경한 경우, 콘텐츠 제공 장치(100)는 제1 픽셀면적(PA-1)에 매칭된 제1 아이템을 제2 아이템으로 변경할 수 있다.

이때, 복수의 아이템페이지의 픽셀면적(PA)마다 노출되는 아이템 이미지(IMG)가 변경되고 이에 따라 검출되는 아이템도 상이하므로, 이를 위해 콘텐츠 제공 장치(100)는 기설정된 픽셀면적(PA)에 아이템페이지 정보를 포함할 수 있다.

즉, 유저(1)가 동일한 아이템 디스플레이(171-2) 영역을 응시함으로써 콘텐츠 제공 장치(100)가 동일한 픽셀면적(PA)을 도출하더라도, 픽셀면적(PA)에 포함된 아이템페이지 정보에 따라 상이한 아이템이 검출될 수 있다.

이어서, 실시예에서 콘텐츠 제공 장치(100)는, 검출된 아이템에 대한 콘텐츠를 출력할 수 있다. (S113)

자세히, 실시예에서 콘텐츠 제공 장치(100)는, 상품정보 데이터베이스(111)를 기초로 검출된 아이템에 대한 상품정보를 콘텐츠로써 콘텐츠 디스플레이(171-1)에 출력할 수 있다.

또한, 상품정보 데이터베이스(111)에 검출한 아이템에 대한 상품정보가 미존재하는 경우, 실시예에서 콘텐츠 제공 장치(100)는, 통신 프로세서(130)를 이용한 OTT 서비스로 검출된 아이템에 대한 광고 및 부가정보를 포함하는 콘텐츠를 획득하여 콘텐츠 디스플레이(171-1)에 출력할 수도 있다.

실시예에 따라서, 콘텐츠 제공 장치(100)는, 상기 상품정보 데이터베이스(111)로부터 상기 픽셀면적에 매칭되는 아이템을 검출하고, 상기 검출된 아이템에 대한 상품정보를 개시된 OTT 서비스(Over-the-top media service)를 기초로 인터넷을 통해 획득하여 제공할 수도 있다.

정리하자면, 콘텐츠 제공 장치(100)는, 아이템 디스플레이(171-2)에 노출된 복수의 아이템 중 유저(1)가 응시하는 아이템을 판단 및 검출하여 해당 아이템에 대한 광고 및 부가정보를 콘텐츠 디스플레이(171-1) 상에 출력함으로써 유저(1)에게 콘텐츠를 제공할 수 있다.

또한, 콘텐츠 제공 장치(100)는, 유저(1)의 시선정보 뿐만 아니라 입력 시스템(150)을 이용하여 유저(1)의 아이템 선택 입력을 감지함으로써 유저(1)에게 콘텐츠를 제공할 수도 있다.

이를 위해, 콘텐츠 제공 장치(100)는, 아이템 디스플레이(171-2)에 노출된 복수의 아이템 중 적어도 하나의 아이템이 포함된 픽셀면적(PA)을 선택하는 유저(1)의 아이템 선택 입력을 감지할 수 있다.

상기 입력에 따라, 콘텐츠 제공 장치(100)는 유저(1)가 선택한 픽셀면적(PA)을 도출할 수 있고, 상기 도출된 픽셀면적(PA)에 매칭된 아이템을 검출하여 상기 검출된 아이템에 대한 상품정보 콘텐츠를 출력할 수 있다.

또한, 실시예에서 콘텐츠 제공 장치(100)는, S105 단계에서 생성된 유저(1)의 시선정보(40)를 기초로 콘텐츠 디스플레이(171-1)에 노출되는 콘텐츠를 관리(실시예에서, 재생, 변경, 정지 및 종료)할 수 있다.

예컨대, 1) 아이템 디스플레이(171-2) 상에서 유저(1)의 시선정보(40)가 미수집되는 경우, 실시예에서 콘텐츠 제공 장치(100)는 유저(1)가 콘텐츠 디스플레이(171-1)에 재생중인 콘텐츠를 지속적으로 응시하고 있다고 판단하여 재생중인 콘텐츠를 콘텐츠 디스플레이(171-1)상에 출력하는 상태를 유지할 수 있다.

또한, 예컨대, 2) 아이템 디스플레이(171-2) 상에서 유저(1)의 시선정보(40)가 수집되고 상기 시선정보(40)에 포함된 관심영역이 변경된 경우, 실시예에서 콘텐츠 제공 장치(100)는 재생중인 콘텐츠를 정지하고 S109 단계로 회귀하여 유저(1)가 새로이 응시하는 아이템에 대한 콘텐츠로 변경하여 재생할 수 있다.

또한, 예컨대, 3) 아이템 디스플레이(171-2) 상에서 유저(1)의 시선정보(40)가 미수집되며 이미지 센서(161)를 이용하여 획득되는 얼굴인식 영상(10)이 미존재하는 경우, 실시예에서 콘텐츠 제공 장치(100)는 유저(1)가 아이템의 구매를 비희망하여 콘텐츠 제공 장치(100) 이용을 중단했다고 판단하여 재생중인 콘텐츠를 종료할 수 있다.

상술한 3)의 경우에는, 콘텐츠 디스플레이(171-1) 상에 유저(1)가 아닌 일반 행인들을 대상으로 일반 광고를 출력할 수 있으며, 이에 따라 콘텐츠 제공 장치(100)의 사용 효율을 증가시킬 수 있는 효과가 있다.

한편, 다른 실시예에 따른 콘텐츠 제공 장치(100)는, 복수의 유저가 콘텐츠 제공 장치(100)를 이용하는 경우에도 복수의 유저 각각에 대해 시선인식 기반 맞춤형 콘텐츠를 제공할 수도 있다.

이하의 다른 실시예에서는 상술한 실시예와 차이가 있는 내용에 대하여만 서술하며, 서술되지 않은 내용은 상술한 실시예의 방법을 준용하는 것으로 본다.

도 7은 본 발명의 다른 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 다른 실시예에서 콘텐츠 제공 장치(100)는, 얼굴인식 영상(10)을 기초로 복수의 유저 얼굴영역(FA)을 인식할 수 있다. (S301)

자세히, 다른 실시예에서 콘텐츠 제공 장치(100)는, 얼굴인식 영상(10)에 인식된 유저(1)의 얼굴영역(FA)이 복수개이며 인식된 얼굴영역(FA)이 모두 소정의 크기(예컨대, 3제곱센치미터(cm2)) 이상인 경우, 복수의 유저 얼굴영역(FA)을 인식할 수 있다.

설명의 편의를 위해, 복수의 유저(1)가 2명인 경우에 기준하여 설명하나, 이에 한정하지 않고 더 적거나 많은 수의 유저(1)가 존재하는 다양한 실시예가 가능할 수 있다.

예컨대, 콘텐츠 제공 장치(100)를 이용하고자 하는 유저(1)가 2명이며 인식된 얼굴영역(FA) 2개가 모두 소정의 크기 이상인 경우, 콘텐츠 제공 장치(100)는 콘텐츠 제공 장치(100)를 이용하려는 유저(1)가 복수 명임을 판단할 수 있다.

이어서, 다른 실시예에서 콘텐츠 제공 장치(100)는, 인식된 얼굴영역(FA)에 따라 카메라 앵글을 조정할 수 있다. (S303)

자세히, 다른 실시예에서 콘텐츠 제공 장치(100)는, 인식된 얼굴영역(FA)이 복수개이므로, 상기 복수의 얼굴영역(FA) 모두가 정상적으로 인식되는 각도를 도출하여 카메라 앵글을 조정할 수 있다.

예컨대, 콘텐츠 제공 장치(100)는, 카메라 중심점이 인식된 2개의 얼굴영역(FA)의 정중앙에 위치할 수 있도록 카메라 앵글을 조정할 수 있다.

또한, 다른 실시예에서 콘텐츠 제공 장치(100)는, 복수의 유저의 시선을 추적하여 제1 시선정보 및 제2 시선정보를 생성할 수 있다. (S305)

이때, 다른 실시예에서 콘텐츠 제공 장치(100)는, 제1 유저의 시선을 추적한 시선정보인 제1 시선정보 및 제2 유저의 시선을 추적한 시선정보인 제2 시선정보를 생성할 수 있다.

또한, 다른 실시예에서 콘텐츠 제공 장치(100)는, 생성된 복수의 시선정보를 기초로 제1 관심영역 및 제2 관심영역을 판단할 수 있다. (S307)

이때, 다른 실시예에서 콘텐츠 제공 장치(100)는, 생성된 제1 시선정보로부터 제1 관심영역을 판단하고 제2 시선정보로부터 제2 관심영역을 판단할 수 있다.

즉, 다른 실시예에서 콘텐츠 제공 장치(100)는, 유저의 수에 비례하는 수의 시선정보 및 관심영역을 생성할 수 있다.

또한, 다른 실시예에서 콘텐츠 제공 장치(100)는, 판단된 복수의 관심영역과 일치율이 높은 제1 픽셀면적 및 제2 픽셀면적을 도출할 수 있다. (S309)

이때, 다른 실시예에서 콘텐츠 제공 장치(100)는, 도출된 제1 픽셀면적 및 제2 픽셀면적이 동일한 경우, 복수의 유저가 응시중인 아이템이 동일하다고 판단하여 S111 및 S113과 동일한 방법으로 콘텐츠 디스플레이(171-1)에 하나의 콘텐츠만을 출력할 수 있다.

바꿔 말하면, 다른 실시예에서 콘텐츠 제공 장치(100)는, 도출된 제1 픽셀면적 및 제2 픽셀면적이 상이한 경우, 복수의 유저가 응시중인 아이템이 다르다고 판단하여 복수의 콘텐츠를 콘텐츠 디스플레이(171-1)에 출력하기 위해 S311 단계를 수행할 수 있다.

또한, 다른 실시예에서 콘텐츠 제공 장치(100)는, 도출된 복수의 픽셀면적에 매칭된 제1 아이템 및 제2 아이템을 검출할 수 있다. (S311)

이어서, 다른 실시예에서 콘텐츠 제공 장치(100)는, 콘텐츠 디스플레이(171-1)에 출력 화면을 분할할 수 있다. (S313)

이때, 콘텐츠 디스플레이(171-1) 출력 화면은 인식된 유저의 수에 상응하는 수로 분할될 수 있다.

또한, 다른 실시예에서 콘텐츠 제공 장치(100)는, 분할된 출력 화면에 각각 제1 콘텐츠 및 제2 콘텐츠를 출력할 수 있다. (S315)

자세히, 다른 실시예에서 콘텐츠 제공 장치(100)는, 각 유저와 가까운 위치의 분할된 콘텐츠 디스플레이(171-1)의 출력 화면에 각각 제1 콘텐츠 및 제2 콘텐츠를 출력할 수 있다.

도 8은 본 발명의 다른 실시예에 따라 복수의 시선인식 기반 맞춤형 콘텐츠가 출력되는 모습을 나타낸 일례이다.

도 8을 참조하면, 다른 실시예에서 콘텐츠 제공 장치(100)는, 제1 유저(1-A) 및 제2 유저(1-B)의 시선을 각각 추적하여 아이템 디스플레이(171-2)에 포함된 제1 픽셀면적(PA-A) 및 제2 픽셀면적(PA-B)을 도출할 수 있다.

이때, 다른 실시예에서 콘텐츠 제공 장치(100)는, 제1 픽셀면적(PA-A) 및 제2 픽셀면적(PA-B)의 위치와 관계없이 제1 유저(1-A) 및 제2 유저(1-B)의 위치를 기초로 각 유저와 가까운 분할 출력 화면에 콘텐츠를 출력할 수 있다.

예컨대, 콘텐츠 제공장치는(100)는, 제1 유저(1-A)가 응시중인 제1 픽셀면적(PA-A)에 해당하는 아이템에 대한 콘텐츠는 제1 유저와 가까운 A' 분할 출력 화면에 출력할 수 있고, 제2 유저(1-B)가 응시중인 제2 픽셀면적(PA-B)에 해당하는 아이템에 대한 콘텐츠는 제2 유저와 가까운 B' 분할 출력 화면에 출력할 수 있다.

또한, 다른 실시예에서 콘텐츠 제공 장치(100)는, S301 단계에서 인식한 유저 얼굴영역(FA)의 위치와 대응하여 분할 출력 화면을 지정할 수 있다.

이상, 본 발명의 실시예에 따른 시선인식 기반 맞춤형 콘텐츠를 제공하는 장치 및 방법은, 사용자의 신체적 특성에 따라 장치에 부착된 카메라의 시야각을 실시간으로 자동 조정함으로써 사용자가 바뀔 때마다 사용자에 맞는 초기 세팅 수행에 소요되는 시간을 단축하는 효과가 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

또한 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술할 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정하여져야만 할 것이다.

Claims

콘텐츠 제공 장치의 적어도 하나의 프로세서에 의하여 실행되는 시선인식 기반 맞춤형 콘텐츠를 제공하는 방법에 있어서,
이미지 센서를 기초로 유저의 얼굴인식 영상을 획득하는 단계;
상기 획득된 얼굴인식 영상을 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하는 단계;
상기 획득된 얼굴 정면뷰 영상을 기초로 상기 유저의 시선방향 및 시선 고정시간 정보를 포함하는 시선정보를 생성하는 단계;
상기 생성된 시선정보에 대응되는 디스플레이 영역을 관심영역으로 결정하는 단계;
상기 결정된 관심영역에 매칭되는 아이템을 검출하는 단계; 및
상기 검출된 아이템에 대한 상품정보 콘텐츠를 제공하는 단계를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
제1 항에 있어서,
상기 획득된 얼굴인식 영상을 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하는 단계는,
상기 얼굴인식 영상을 기 학습된 딥러닝 뉴럴 네트워크의 입력 데이터로 제공하는 단계와, 상기 딥러닝 뉴럴 네트워크의 출력 데이터로 상기 유저의 얼굴 포즈정보를 획득하는 단계와, 상기 획득된 얼굴 포즈 정보를 기초로 상기 이미지 센서를 제어하는 단계를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
제1 항에 있어서,
상기 생성된 시선정보에 대응되는 디스플레이 영역을 관심영역으로 결정하는 단계는,
상기 유저의 시선 고정시간 정보가 기 설정된 시간 이상을 충족하면, 상기 유저의 시선방향에 대응되는 디스플레이 영역을 상기 관심영역으로 결정하는 단계를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
제1 항에 있어서,
상기 결정된 관심영역에 매칭되는 아이템을 검출하는 단계는,
상기 디스플레이 영역을 기초로 출력되는 아이템페이지를 선택하는 유저 입력을 획득하는 단계와,
상기 선택된 아이템페이지 내 상기 관심영역에 매칭된 아이템을 검출하는 단계를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
제1 항에 있어서,
상기 시선정보에 대응되는 디스플레이 영역을 관심영역으로 결정하는 단계는,
상기 시선정보가 변경되면 상기 변경된 시선정보에 대응되는 디스플레이 영역으로 상기 관심영역을 업데이트하는 단계를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
제1 항에 있어서,
상기 결정된 관심영역에 매칭되는 아이템을 검출하는 단계는,
상기 관심영역에 매칭되는 디스플레이 영역 내 적어도 하나의 픽셀을 검출하는 단계와,
상기 검출된 적어도 하나의 픽셀에 대하여 기 저장된 아이템을 검출하는 단계를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
제1 항에 있어서,
상기 디스플레이 영역 내 적어도 하나의 픽셀을 선택하는 유저 입력을 획득하는 단계와, 상기 선택된 적어도 하나의 픽셀에 대하여 기 저장된 아이템을 검출하는 단계와, 상기 검출된 아이템에 대한 상품정보 콘텐츠를 출력하는 단계를 더 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 방법.
유저의 얼굴인식 영상을 획득하는 적어도 하나의 이미지 센서;
상기 획득된 얼굴인식 영상에 기초한 상품정보 콘텐츠를 출력하는 적어도 하나의 디스플레이;
적어도 하나의 프로세서;를 포함하고,
상기 프로세서는,
상기 얼굴인식 영상을 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하고, 상기 획득된 얼굴 정면뷰 영상을 기초로 상기 유저의 시선방향 및 시선 고정시간 정보를 포함하는 시선정보를 생성하고, 상기 생성된 시선정보에 대응되는 상기 디스플레이 영역을 관심영역으로 결정하고, 상기 결정된 관심영역에 매칭되는 아이템을 검출하고, 상기 검출된 아이템에 대한 상품정보 콘텐츠를 제공하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 장치.
제8 항에 있어서,
상기 디스플레이는,
적어도 하나 이상의 상기 아이템에 대한 대표 이미지를 출력하는 아이템 디스플레이와, 상기 상품정보 콘텐츠를 출력하는 콘텐츠 디스플레이를 포함하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 장치.
제1 항에 있어서,
상기 프로세서는,
상기 얼굴인식 영상에 기반한 딥러닝을 기초로 상기 유저의 얼굴 포즈정보를 획득하고,
상기 획득된 얼굴 포즈정보를 기초로 상기 이미지 센서를 제어하여 상기 유저의 얼굴 정면뷰 영상을 획득하는
시선인식 기반 맞춤형 콘텐츠를 제공하는 장치.