KR20190020779A

KR20190020779A - 인게이지먼트값 처리 시스템 및 인게이지먼트값 처리 장치

Info

Publication number: KR20190020779A
Application number: KR1020197001899A
Authority: KR
Inventors: 류이치 히라이데; 마사미 무라야마; 쇼이치 하치야; 세이치 니시오; 미키오 오카자키
Original assignee: 가부시키가이샤 가이아 시스템 솔루션
Priority date: 2016-06-23
Filing date: 2017-05-02
Publication date: 2019-03-04
Also published as: US20190340780A1; JP6282769B2; WO2017221555A1; TW201810128A; CN109416834A; JP2018005892A

Abstract

촬상 장치로부터 얻어지는 영상 데이터만을 사용하여, 인게이지먼트값에 추가로 맥박 등의 생체 정보를 동시에 취득할 수 있는 인게이지먼트값 처리 시스템을 제공한다. 촬상 장치가 출력하는 화상 데이터 스트림은 특징점 추출부에 의해 얼굴의 특징점을 나타내는 특징점 데이터가 생성된다. 특징점 데이터로부터 유저의 컨텐츠에 대한 인게이지먼트값을 산출하기 위한 얼굴 방향 벡터와 시선 방향 벡터가 산출된다. 한편, 특징점 데이터는 맥박을 검출할 때의 부분 화상 데이터의 절출과, 유저의 감정 추정에도 이용할 수 있다. 따라서, 촬상 장치로 유저를 촬영하는 것만으로 컨텐츠를 시청하는 유저의 컨텐츠에 대한 인게이지먼트값과, 맥박과, 감정을 동시에 취득할 수 있다.

Description

인게이지먼트값 처리 시스템 및 인게이지먼트값 처리 장치

본 발명은 컴퓨터나 전자 기기 등이 이용자에게 제공하는 컨텐츠에 대해, 이용자가 컨텐츠에 나타내는 인게이지먼트값에 관한 정보를 검출하여 이용하는 인게이지먼트값 처리 시스템 및 인게이지먼트값 처리 장치에 관한 것이다.

텔레비전 방송(이하, 「TV 방송」)에 있어서 방송되는 영상 컨텐츠가 얼마나 시청자에게 시청되고 있는지를 나타내는 지표로서, 종래부터 「세대 시청률」이 사용되고 있다. TV 방송에 있어서의 세대 시청률의 계측은 샘플이 되는 가정에 시청률을 측정하기 위한 기기를 설치하고, 그 기기가 텔레비전 수상기(이하, 「TV」)가 온 상태로 표시하고 있는 채널에 관한 정보를 거의 실시간으로 집계 거점으로 송신한다. 즉 세대 시청률이란, 시청 시간과 시청 채널에 관한 정보를 집계한 결과이며, 세대 시청률이라고 하는 정보로부터 시청자가 어떠한 상태에서 프로그램(영상 컨텐츠)을 시청했는지는 알 수 없다.

예를 들면, 시청자가 TV 프로그램에 대해, 화면을 주시하지 않고 라디오와 같이 흘려듣는 시청 형태인 경우에는, 당해 프로그램은 시청자에게 있어서 집중한 상태에서 시청되지 않은 것이 된다. 이러한 시청 형태에서는, TV 프로그램에 삽입되는 커머셜(이하, 「CM」)의 선전 효과는 거의 기대할 수 없다.

시청자가 TV 프로그램을 어느 정도 집중하여 시청하고 있는지를 알기 위한 기술이 몇 가지 검토되고 있다.

특허문헌 1에는, TV 프로그램에 대해 시청자가 어느 정도 집중하고 있는지를 「집중도」로 정의하고, 그 집중도를 습득하여 이용하는 기술이 개시되어 있다.

특허문헌 2에는, 카메라로 촬영한 유저의 얼굴 화상 데이터로부터 단시간 푸리에 변환(short-time Fourier transform, short-term Fourier transform, STFT)을 이용하여 맥박을 검출하는 기술이 개시되어 있다.

특허문헌 3에는, 이산 웨이블릿 변환(Discrete wavelet transform, DWT)을 이용하여 맥박을 검출하는 기술이 개시되어 있다.

일본 공개특허공보 2003-111106호 일본 공개특허공보 2015-116368호 일본 공개특허공보 평10-216096호

상술한 특허문헌 3에 나타난 바와 같이, 시청자의 집중도에 관련하여 대상이 되는 컨텐츠(contents)는 반드시 TV 프로그램으로 한정되는 것은 아니다. 모든 컨텐츠가 대상이 된다. 여기서, 컨텐츠란, 온라인 혹은 오프라인에서 컴퓨터나 전자 기기를 개재하여 제공되는 문자열, 음성, 정지 화상, 영상(동영상), 또한 이들이 조합된 프레젠테이션이나 게임 등의 대상자가 이해 가능한 내용으로 향수하는 정보를 총칭한 것을 말한다. 또한 이 이후, 본 명세서에서는 컨텐츠를 향수 및/또는 이용하는 사람을 시청자가 아닌 유저로 총칭한다.

발명자들은 지금까지 집중도를 측정하는 기기를 개발해 왔다. 그리고, 기기 개발의 과정에 있어서, 발명자들은 사람이 어느 사상에 대해 집중하는 상태는 능동적인 요인만이 아닌, 수동적인 요인도 있음을 깨달았다.

예를 들면, 사람이 어느 과제에 직면하고, 그 과제를 해결하기 위해 집중하는 행위는 능동적인 요인이다. 즉, 당해 행위는 「당해 사상에 집중해야 한다」는 의식에 기인한다. 이에 비해, 사람이 재미있는 것이나 즐거운 것 등의 사상을 보고, 흥미를 갖게 되는 행위는 어느 의미로 수동적인 요인이다. 즉, 당해 행위는 「당해 사상에 무심코 끌린다」는 감정에 기인한다.

발명자들은 이와 같이 상반되는 의식이나 감정에 기인하는 행동을 「집중도」라는 단어로 표현하는 것이 반드시 적절한 것은 아니라고 생각했다. 이에 발명자들은, 어느 대상자가 어느 사상에 대해 능동적 또는 수동적인 요인의 여하에 상관없이, 주목하고 있는 상태를 「인게이지먼트(Engagement)」라는 단어로 정의하기로 했다. 그리고, 발명자들은 지금까지 개발해 온 기기를, 집중도를 측정하는 기기가 아닌 인게이지먼트를 측정하는 기기로 정의했다.

특히 오락성이 높은 영상 컨텐츠는 유저에게 다양한 감정을 상기시키는 효과를 갖는 것이 많다. 인게이지먼트값에 추가로 유저의 감정을 검출하는 생체 정보를 동시에 취득할 수 있으면, 컨텐츠의 평가나 개량에도 이용할 수 있는 유용한 정보가 된다.

또한, 유저가 열람하는 컨텐츠는 반드시 오락을 대상으로 하는 내용으로 한정할 수 없다. 학원 등에서 이용되는 교육이나 학습 등에 사용되는 컨텐츠도 존재한다. 교육이나 학습 등의 용도에 사용되는 컨텐츠에 있어서, 인게이지먼트값은 중요한 컨텐츠의 평가 지표가 된다. 유저가 주목하지 않는 컨텐츠에서는 효과적인 학습을 기대할 수 없다.

본 발명은 이러한 과제를 감안하여 이루어진 것으로, 촬상 장치로부터 얻어지는 영상 데이터만을 사용하여, 인게이지먼트값에 추가로 맥박 등의 생체 정보를 동시에 취득할 수 있는 인게이지먼트값 처리 시스템 및 인게이지먼트값 처리 장치를 제공하는 것을 목적으로 한다.

상기 과제를 해결하기 위해, 본 발명의 인게이지먼트값 처리 시스템은, 컨텐츠를 표시하는 표시부와, 표시부를 보는 유저의 얼굴을 촬영 가능한 방향으로 설치되는 촬상 장치와, 촬상 장치로부터 출력되는 화상 데이터 스트림으로부터 유저의 얼굴의 존재를 검출하고, 유저의 얼굴을 추출한 얼굴 추출 화상 데이터를 출력하는 얼굴 검출 처리부와, 얼굴 추출 화상 데이터로부터 유저의 얼굴 윤곽을 포함하는 2차원 공간 내에 있어서의 좌표 정보를 갖는 특징점의 집합체인 특징점 데이터를 출력하는 특징점 추출부와, 특징점 데이터로부터 유저의 얼굴 방향을 나타내는 얼굴 방향 벡터와, 유저의 얼굴에 있어서의 시선 방향을 나타내는 시선 방향 벡터를 소정의 샘플링 레이트로 생성하는 벡터 해석부와, 얼굴 방향 벡터와 시선 방향 벡터로부터 유저의 컨텐츠에 대한 인게이지먼트값을 산출하는 인게이지먼트 산출부를 구비한다.

또한, 유저를 한번에 식별하는 유저 ID와, 유저가 컨텐츠를 시청한 시청 일시와, 컨텐츠를 한번에 식별하는 컨텐츠 ID와, 컨텐츠의 재생 위치를 나타내는 재생 위치 정보와, 인게이지먼트 산출부가 출력하는 유저의 컨텐츠에 대한 인게이지먼트값을 축적하는 데이터 베이스를 구비한다.

본 발명에 의해 촬상 장치로부터 얻어지는 영상 데이터만을 사용하여, 인게이지먼트값에 추가로 맥박 등의 생체 정보를 동시에 취득하는 것이 가능해진다.

상기 이외의 과제, 구성 및 효과는 이하의 실시형태의 설명에 의해 명확해진다.

도 1은 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템의 전체상을 나타내는 개략도이다.
도 2는 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템에 있어서의 유저의 인게이지먼트값의 구조를 설명하는 개략도이다.
도 3은 디스플레이의 종류와 카메라의 배리에이션을 나타내는 도면이다.
도 4는 가로형과 세로형 디스플레이에 있어서의 카메라의 최적 배치 위치의 영역을 나타내는 도면이다.
도 5는 인게이지먼트값 처리 시스템의 하드웨어 구성을 나타내는 블럭도이다.
도 6은 본 발명의 제1 실시형태에 따른 인게이지먼트값 처리 시스템의 소프트웨어 기능을 나타내는 블럭도이다.
도 7은 인게이지먼트 산출부의 기능 블럭도이다.
도 8은 본 발명의 제2 실시형태에 따른 인게이지먼트값 처리 시스템의 소프트웨어 기능을 나타내는 블럭도이다.
도 9는 촬상 장치로부터 출력되는 화상 데이터 스트림의 일례를 나타내는 개략도와, 얼굴 검출 처리부가 출력하는 얼굴 추출 화상 데이터의 일례를 나타내는 개략도와, 특징점 추출부가 출력하는 특징점 데이터의 일례를 나타내는 개략도이다.
도 10은 맥박 검출 영역 추출부가 유저의 얼굴 화상 데이터로부터 부분 화상 데이터로서 절출하는 영역을 모식적으로 나타내는 도면이다.
도 11은 감정 추정부가 실시하는 감정의 분류를 설명하는 개략도이다.
도 12는 본 발명의 제３ 실시형태에 따른 인게이지먼트값 처리 장치의 하드웨어 구성을 나타내는 블럭도이다.
도 13은 본 발명의 제３ 실시형태에 따른 인게이지먼트값 처리 장치의 소프트웨어 기능을 나타내는 블럭도이다.
도 14는 재생 제어부가 컨텐츠 재생 처리부에 부여하는 제어 정보에 의해 발생하는 인게이지먼트값과 컨텐츠의 재생 속도의 대응 관계의 일례를 나타내는 그래프이다.

본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템은, 유저의 컨텐츠에 대한 인게이지먼트값을 측정하고, 이를 서버에 업로드하여 다양한 해석 등에 이용한다.

일반적으로 인게이지먼트값 처리 시스템은, 유저의 얼굴을 카메라로 촬영하여 유저의 얼굴과 시선 방향을 검출하고, 이들 방향이 컨텐츠를 표시하는 디스플레이에 어느 정도 향하고 있는지를 측정함으로써, 유저의 컨텐츠에 대한 인게이지먼트값을 산출한다.

한편, 특허문헌 2에 나타낸 바와 같이, 카메라로 촬영한 유저의 얼굴 화상 데이터로부터 맥박을 검출하는 기술이 알려져 있다. 그러나, 얼굴 화상 데이터로부터 맥박을 검출하기 위해서는, 그 전제로서 얼굴 화상 데이터 중, 맥박을 검출하기 위해 적절한 영역을 추출하는 것이 필요하다. 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템에서는, 인게이지먼트값을 측정하기 위해 취득하는 유저의 얼굴 윤곽을 나타내는 벡터 데이터를 기초로 맥박을 검출하기 위해 적절한 영역을 추출하고 있다.

한편, 본 발명의 실시형태에 있어서의 인게이지먼트값 처리 시스템에서는 시각을 이용하는 컨텐츠를 대상으로 한다. 따라서, 음성만의 컨텐츠는 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템에 있어서의 인게이지먼트값의 측정 및 이용 대상 외이다.

[전체 구성]

도 1은 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템(101)의 전체상을 나타내는 개략도이다.

유저(102)는 컨텐츠 재생 기능을 갖는 클라이언트(103)의 표시부(104)에 표시되고 있는 컨텐츠(105)를 시청한다. 액정 디스플레이 등으로 이루어지는 표시부(104)의 상부에는, 이른바 web 카메라로 불리는 촬상 장치(106)가 설치되어 있다. 촬상 장치(106)는 유저(102)의 얼굴을 촬영하고 화상 데이터 스트림을 출력한다.

클라이언트(103)는 그 내부에 인게이지먼트값 처리 기능을 갖고 있다. 그리고, 유저(102)의 컨텐츠(105)에 대한 인게이지먼트값을 포함하는 다양한 정보가 클라이언트(103)의 인게이지먼트값 처리 기능에 의해 산출되고, 인터넷(107)을 통해서 서버(108)에 업로드된다.

[인게이지먼트값에 대해서]

도 2a 및 도 2b는, 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템(101)에 있어서의 유저(102)의 인게이지먼트값의 구조를 설명하는 개략도이다.

도 2a에 있어서, 유저(102)는 컨텐츠(105)가 표시되고 있는 표시부(104)를 주시하고 있다. 표시부(104)의 바로 위에는 촬상 장치(106)가 장착되어 있다. 촬상 장치(106)는 표시부(104)의 앞에 존재하는 유저(102)의 얼굴을 촬영 가능한 방향으로 향하고 있다. 촬상 장치(106)에는 도시하지 않은 정보 처리 장치인 클라이언트(103)(도 1 참조)가 접속되어 있다. 클라이언트(103)는 촬상 장치(106)로부터 얻어지는 화상 데이터로부터 유저(102)의 얼굴 방향 및/또는 시선이 표시부(104)의 방향을 향하고 있는지 여부를 검출하고, 유저(102)가 컨텐츠(105)를 주시하고 있는지 여부를 0부터 1까지, 혹은 0부터 255까지, 또는 0부터 1023까지 등, 소정의 범위를 갖는 값의 데이터로서 출력한다. 이 클라이언트(103)로부터 출력되는 값이 인게이지먼트값이다.

도 2b에 있어서는, 유저(102)는 컨텐츠(105)를 표시하고 있는 표시부(104)를 주시하고 있지 않다. 촬상 장치(106)에 접속되어 있는 클라이언트(103)는 촬상 장치(106)로부터 얻어지는 화상 데이터로부터 도 2a에 있어서의 인게이지먼트값보다 낮은 값의 인게이지먼트값을 출력한다.

이와 같이, 본 실시형태에 따른 인게이지먼트값 처리 시스템(101)은, 유저(102)의 얼굴 방향 및/또는 시선이 컨텐츠(105)를 표시하고 있는 표시부(104)를 향하고 있는지 여부를, 촬상 장치(106)로부터 얻어지는 화상 데이터로부터 산출할 수 있다.

도 3a, 도 3b 및 도 3c는, 표시부(104)의 종류와 촬상 장치(106)의 배리에이션을 나타내는 도면이다.

도 4a 및 도 4b는, 표시부(104)의 종류와 촬상 장치(106)가 장착되는 배치 관계를 나타내는 도면이다.

도 3a는 거치형 LCD 디스플레이(301)에, 외부 부착 USB 타입 web 카메라(302)가 장착되어 있는 예이다.

도 3b는 노트북 컴퓨터(303)의 LCD 디스플레이(304)의 테두리에 web 카메라(305)가 매설되어 있는 예이다.

도 3c는 스마트폰 등의 휴대형 무선 단말(306)의 LCD 디스플레이(307)의 테두리에 셀피용 인카메라(308)가 매설되어 있는 예이다.

이들 도 3a, 도 3b 및 도 3c에 공통되는 점은 촬상 장치(106)가 표시부(104)의 중심선 근방에 설치되어 있는 점이다.

도 4a는 도 3a 및 도 3b에 대응하는 가로형 표시부(104a)에 있어서의 촬상 장치(106)의 최적 배치 위치의 영역을 나타내는 도면이다.

도 4b는 도 3c에 대응하는 세로형 표시부(104b)에 있어서의 촬상 장치(106)의 최적 배치 위치의 영역을 나타내는 도면이다.

도 4a의 표시부(104a) 및 도 4b의 표시부(104b), 즉 디스플레이가 가로형, 세로형 중 어느 쪽인 경우에도 표시부(104a 및 104b)의 상하 주변의 중심선(L402 및 L404)을 통과하는 영역(401a, 401b, 403a 및 403b)에 촬상 장치(106)가 배치되어 있으면, 촬상 장치(106)는 유저(102)의 얼굴과 시선을 조정 없이 바르게 포착하는 것이 가능하다.

한편, 촬상 장치(106)가 이들 영역으로부터 벗어나는 위치에 설치되는 경우에는, 유저(102)의 얼굴과 시선이 표시부(104)에 바르게 향하고 있는지 여부를 검출하기 위해, 미리 유저(102)의 얼굴과 시선이 표시부(104)에 바르게 향하고 있을 때의 촬상 장치(106)에서 본 유저(102)의 얼굴과 시선 방향 정보를 검출하여 불휘발성 스토리지(504)(도 5 참조) 등에 기억해 두는 것이 바람직하다.

[인게이지먼트값 처리 시스템(101)：하드웨어 구성]

도 5는 인게이지먼트값 처리 시스템(101)의 하드웨어 구성을 나타내는 블럭도이다.

클라이언트(103)는 일반적인 컴퓨터이며, CPU(501), ROM(502), RAM(503), 불휘발성 스토리지(504), 현재 일시 정보를 출력하는 리얼 타임 클럭(이하, 「RTC」)(505), 조작부(506)가 버스(507)에 접속되어 있다. 그리고, 인게이지먼트값 처리 시스템(101)에 있어서 중요한 역할을 갖는 표시부(104)와 촬상 장치(106)도 버스(507)에 접속되어 있다.

클라이언트(103)는 버스(507)에 접속된 NIC(Network Interface Card)(508)를 통해 인터넷(107)을 개재하여 서버(108)와 통신을 행한다.

서버(108)도 또한 일반적인 컴퓨터이며, CPU(511), ROM(512), RAM(513), 불휘발성 스토리지(514), NIC(515)가 버스(516)에 접속되어 있다.

[제1 실시형태：인게이지먼트값 처리 시스템(101)의 소프트웨어 기능]

다음으로, 인게이지먼트값 처리 시스템(101)의 소프트웨어 기능에 대해서 설명한다. 인게이지먼트값 처리 시스템(101)은 그 기능의 대부분이 소프트웨어의 기능으로 구성되어 있다. 소프트웨어의 기능의 일부에는 높은 부하의 연산 처리를 필요로 하는 것이 포함되어 있기 때문에, 소프트웨어를 실행하는 하드웨어의 연산 처리 능력에 의해, 클라이언트(103)에서 처리할 수 있는 기능이 상이한 경우가 있다.

다음에 설명하는 제1 실시형태에서는, 주로 컴퓨터 등의 비교적 연산 처리 능력(리소스)이 윤택한 하드웨어를 상정한, 인게이지먼트값 처리 시스템(101)의 소프트웨어 기능이 상정되어 있다. 이에 비해, 후술하는 제2 실시형태의 인게이지먼트값 처리 시스템(101)에서는 휴대형 무선 단말이나 내장 용도의 마이크로 컨트롤러 등, 저자원 장치로도 불리는 연산 처리 능력이 부족한 하드웨어를 상정한 소프트웨어 기능에 대해서 설명한다.

도 6은 본 발명의 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)의 소프트웨어 기능을 나타내는 블럭도이다.

촬상 장치(106)가 컨텐츠(105)를 시청하는 유저(102)의 얼굴을 촬영한 화상 데이터 스트림은 얼굴 검출 처리부(601)에 공급된다. 이 화상 데이터 스트림을 일시적으로 불휘발성 스토리지(504) 등에 저장하고, 이후의 처리를 컨텐츠(105)의 재생 후에 행해도 된다.

얼굴 검출 처리부(601)는 촬상 장치(106)로부터 출력되는 화상 데이터 스트림을 시간축 상에서 연속하는 정지 화면으로 파악하고, 이 시간축 상에서 연속하는 정지 화면의 각 화상 데이터에 대해, 예를 들면 Viola-Jones법 등의 주지의 알고리즘을 이용하여 유저(102)의 얼굴의 존재를 검출한다. 그리고, 유저(102)의 얼굴만을 추출한 얼굴 추출 화상 데이터를 출력한다.

얼굴 검출 처리부(601)가 출력하는 얼굴 추출 화상 데이터는 특징점 추출부(602)에 공급된다.

특징점 추출부(602)는 얼굴 추출 화상 데이터에 포함되는 유저(102)의 얼굴 화상에 폴리곤 해석 등의 처리를 실시한다. 그리고, 유저(102)의 얼굴 전체, 눈썹, 눈, 코, 입 등의 윤곽과 눈동자를 나타내는 얼굴의 특징점으로 이루어지는 특징점 데이터를 생성한다. 특징점 데이터의 상세에 대해서는 도 9에서 후술한다.

특징점 추출부(602)가 출력하는 특징점 데이터는 클라이언트(103)의 CPU(501)의 연산 처리 능력에 따라, 예를 들면 100msec 등의 소정 시간 간격(샘플링 레이트)으로 출력된다.

특징점 추출부(602)가 출력하는 특징점 데이터와, 얼굴 검출 처리부(601)가 출력하는 얼굴 추출 화상 데이터는 벡터 해석부(603)에 공급된다.

벡터 해석부(603)는 연속하는 2매의 얼굴 추출 화상 데이터에 기초하는 특징점 데이터로부터 유저(102)의 얼굴 방향을 나타내는 벡터(이하, 「얼굴 방향 벡터」)를 특징점 추출부(602)와 동일하게 소정의 샘플링 레이트로 생성한다.

또한, 벡터 해석부(603)는 연속하는 2매의 얼굴 추출 화상 데이터에 기초하는 특징점 데이터와, 얼굴 추출 화상 데이터로부터 특징점 데이터에 의해 절출한 유저(102)의 눈 부분의 화상 데이터를 사용하여, 유저(102)의 얼굴에 있어서의 시선 방향을 나타내는 벡터(이하, 「시선 방향 벡터」)를 특징점 추출부(602)와 동일하게 소정의 샘플링 레이트로 생성한다.

벡터 해석부(603)가 출력하는 얼굴 방향 벡터와 시선 방향 벡터는 인게이지먼트 산출부(604)에 공급된다. 인게이지먼트 산출부(604)는 얼굴 방향 벡터와 시선 방향 벡터로부터 인게이지먼트값을 산출한다.

도 7은 인게이지먼트 산출부(604)의 기능 블럭도이다.

벡터 해석부(603)가 출력하는 얼굴 방향 벡터와 시선 방향 벡터는 벡터 가산부(701)에 입력된다. 벡터 가산부(701)는 얼굴 방향 벡터와 시선 방향 벡터를 가산하여 주시 방향 벡터를 산출한다. 이 주시 방향 벡터는 유저(102)가 컨텐츠를 표시하는 표시부(104)와 촬상 장치(106)를 포함하는 3차원 공간 내의 어디를 주시하고 있는지를 나타내는 벡터이다.

벡터 가산부(701)가 산출한 주시 방향 벡터는 주시 방향 판정부(702)에 입력된다. 주시 방향 판정부(702)는 유저(102)가 주시하는 대상을 지시하는 주시 방향 벡터가 표시부(104)를 향하고 있는지 여부를 판정하는 2가지의 주시 방향 판정 결과를 출력한다.

한편, 촬상 장치(106)가 표시부(104)의 근방으로부터 멀어진 장소에 설치되어 있는 경우에는, 불휘발성 스토리지(504)에 기억되어 있는 초기 보정값(703)에 의해 주시 방향 판정부(702)의 판정 처리에 보정이 가해진다. 초기 보정값(703)에는 유저(102)의 얼굴과 시선이 표시부(104)를 바르게 향하고 있는지 여부를 검출하기 위해, 미리 유저(102)의 얼굴과 시선이 표시부(104)를 바르게 향하고 있을 때의 촬상 장치(106)에서 본 유저(102)의 얼굴과 시선 방향 정보가 불휘발성 스토리지(504)에 기억되어 있다.

주시 방향 판정부(702)가 출력하는 2가지의 주시 방향 판정 결과는 제1 평활화 처리부(704)에 입력된다. 주시 방향 판정부(702)가 출력하는 주시 방향 판정 결과에는, 특징점 추출부(602)가 생성하는 특징점 데이터에 포함되는 노이즈에서 유래하는 외란이 자주 발생한다. 이 때문에, 제1 평활화 처리부(704)에 의해 노이즈의 영향을 억제하여, 유저(102)의 거동에 매우 가까운 상태를 나타내는 「라이브 인게이지먼트값」을 얻는다.

제1 평활화 처리부(704)는 예를 들면, 현재의 주시 방향 판정 결과를 포함하는 수 샘플의 이동 평균을 산출하여, 라이브 인게이지먼트값을 출력한다.

제1 평활화 처리부(704)가 출력하는 라이브 인게이지먼트값은 제2 평활화 처리부(705)에 입력된다. 제2 평활화 처리부(705)는 입력된 라이브 인게이지먼트값에 대해, 미리 지정된 샘플수(706)의 수에 기초하는 평활화 처리를 행하여 「인게이지먼트 기초값」을 출력한다. 예를 들면, 샘플수(706)에 「5」라고 기술되어 있으면, 5개의 라이브 인게이지먼트값에 대해 이동 평균을 산출한다. 또한, 평활화 처리에서는 가중 이동 평균, 지수 가중 이동 평균 등의 다른 알고리즘을 사용해도 된다. 이 샘플수(706) 및 평활화 처리의 알고리즘은 본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템(101)이 적용되는 어플리케이션에 따라 적절히 설정된다.

제2 평활화 처리부(705)가 출력하는 인게이지먼트 기초값은 인게이지먼트 연산 처리부(707)에 입력된다.

한편, 얼굴 방향 벡터는 곁눈질 판정부(708)에도 입력된다. 곁눈질 판정부(708)는 유저(102)의 얼굴 방향을 나타내는 얼굴 방향 벡터가 표시부(104)를 향하고 있는지 여부를 판정하는 2가지의 곁눈질 판정 결과를 생성한다. 그리고, 이 곁눈질 판정 결과를 벡터 해석부(603)가 출력하는 얼굴 방향 벡터와 시선 방향 벡터의 샘플링 레이트에 따라서 내장되는 2개의 카운터에서 계수한다.

제1 카운터는 유저(102)가 곁눈질을 하고 있는 판정 결과를 계수하고, 제2 카운터는 유저(102)가 곁눈질을 하고 있지 않은 판정 결과를 계수한다. 제1 카운터는 제2 카운터가 소정의 계수값에 이르면 리셋된다. 제2 카운터는 제1 카운터가 소정의 계수값에 이르면 리셋된다. 제1 카운터와 제2 카운터의 논리값이 유저(102)가 곁눈질을 하고 있는지 여부를 나타내는 판정 결과로서 출력된다.

또한, 방향별로 제1 카운터를 복수 가짐으로써, 어플리케이션에 따라 예를 들면, 주변에서 노트를 잡는 것은 곁눈질로 판정하지 않을 수도 있다.

또한, 시선 방향 벡터는 눈감김 판정부(709)에도 입력된다. 눈감김 판정부(709)는 유저(102)의 시선 방향을 나타내는 시선 방향 벡터를 검출할 수 있는지 여부를 판정하는 2가지의 눈감김 판정 결과를 생성한다.

도 9c에서 후술하지만, 시선 방향 벡터는 유저(102)의 눈이 떠있는 상태에서 검출할 수 있다. 즉, 유저(102)가 눈을 감고 있으면 시선 방향 벡터는 검출할 수 없게 된다. 이에, 눈감김 판정부(709)는 유저(102)가 눈을 감고 있는지 여부를 나타내는 2가지의 눈감김 판정 결과를 생성한다. 그리고, 이 눈감김 판정 결과를 벡터 해석부(603)가 출력하는 얼굴 방향 벡터와 시선 방향 벡터의 샘플링 레이트에 따라서 내장되는 2개의 카운터에서 계수한다.

제1 카운터는 유저(102)가 눈을 감고 있는 판정 결과를 계수하고, 제2 카운터는 유저(102)가 눈을 뜨고 있는(눈을 감고 있지 않은) 판정 결과를 계수한다. 제1 카운터는 제2 카운터가 소정의 계수값에 이르면 리셋된다. 제2 카운터는 제1 카운터가 소정의 계수값에 이르면 리셋된다. 제1 카운터와 제2 카운터의 논리값이 유저(102)가 눈을 감고 있는지 여부를 나타내는 판정 결과로서 출력된다.

제2 평활화 처리부(705)가 출력하는 인게이지먼트 기초값과, 곁눈질 판정부(708)가 출력하는 곁눈질 판정 결과와, 눈감김 판정부(709)가 출력하는 눈감김 판정 결과는 인게이지먼트 연산 처리부(707)에 입력된다.

인게이지먼트 연산 처리부(707)는 인게이지먼트 기초값과, 곁눈질 판정 결과와, 눈감김 판정 결과에 대해, 어플리케이션에 따른 중요 계수(710)를 곱한 후 가산하여, 최종적인 인게이지먼트값을 출력한다.

샘플수(706) 및 중요 계수(710)를 조정함으로써, 인게이지먼트값 처리 시스템(101)을 다양한 어플리케이션에 대응할 수 있다. 예를 들면, 샘플수(706)를 「0」으로 설정하고, 곁눈질 판정부(708) 및 눈감김 판정부(709)에 대한 중요 계수(710)도 각각 「0」으로 설정하면, 제1 평활화 처리부(704)가 출력하는 라이브 인게이지먼트 자체가 그대로 인게이지먼트값으로서 인게이지먼트 연산 처리부(707)로부터 출력된다.

특히, 제2 평활화 처리부(705)는 샘플수(706)의 설정에 의해 무효화할 수도 있다. 이에, 제1 평활화 처리부(704)와 제2 평활화 처리부(705)는 단일 평활화 처리부로서 상위 개념으로 간주할 수 있다.

도 6으로 돌아와서 인게이지먼트값 처리 시스템(101)의 소프트웨어 기능의 설명을 계속한다.

얼굴 검출 처리부(601)가 출력하는 얼굴 추출 화상 데이터와, 특징점 추출부(602)가 출력하는 특징점 데이터는 맥박 검출 영역 추출부(605)에도 공급된다.

맥박 검출 영역 추출부(605)는 얼굴 검출 처리부(601)로부터 출력되는 얼굴 추출 화상 데이터와, 특징점 추출부(602)가 출력하는 특징점 데이터에 기초하여, 유저(102)의 얼굴의 일부에 상당하는 화상 데이터의 절출을 실행하여 얻어진 부분 화상 데이터를 맥박 산출부(606)로 출력한다. 상세하게는 도 10에서 후술하지만, 맥박 검출 영역 추출부(605)는 유저(102)의 얼굴 중, 눈의 바로 아래, 광대뼈에 해당하는 영역을 맥박을 검출하기 위한 영역으로 하여 화상 데이터의 절출을 행한다. 맥박을 검출하기 위한 영역으로는 입술, 미간의 약간 위, 광대뼈 부근 등을 생각할 수 있지만, 본 실시형태에서는 수염이나 머리카락에 가려져서 피부가 보이지 않을 가능성이 낮은 광대뼈 부근의 경우를 사용하여 설명한다. 한편, 맥박의 검출 영역을 결정하는 방법은, 다양한 응용을 생각할 수 있다. 예를 들면, 입술이나 미간의 약간 위여도 상관없다. 또한, 입술·미간 바로 위·광대뼈 부근 등의 복수의 후보 영역을 해석할 수 있도록 하고, 입술이 수염에 가려져 있는 것 같으면 다음 후보(예를 들면, 미간 바로 위), 다음 후보도 가려져 있는 것 같으면 그 다음 후보(광대뼈 부근)와 같이, 순차적으로 후보를 좁혀서 적절한 절출 영역을 결정하는 방법이어도 상관없다.

맥박 산출부(606)는 맥박 검출 영역 추출부(605)가 생성하는 부분 화상 데이터로부터 녹색의 성분을 발췌하여 픽셀마다의 휘도의 평균값을 얻는다. 그리고, 이 평균값의 변동을 예를 들면, 특허문헌 2 등에 기재되어 있는 단시간 푸리에 변환, 혹은 특허문헌 3 등에 기재되어 있는 이산 웨이블릿 변환 등을 이용하여 유저(102)의 맥박을 검출한다. 한편, 본 실시형태의 맥박 산출부(606)는 픽셀마다의 휘도의 평균값을 얻는다고 하지만, 평균값 이외에도 최빈값이나 중앙값을 채용해도 된다.

혈액에 포함되는 헤모글로빈은 녹색광을 흡수하는 특성을 갖는 것이 알려져 있다. 주지의 펄스 옥시미터는, 이 헤모글로빈의 특성을 이용하여 피부에 녹색광을 조사하고 반사광을 검출하여, 그 강도 변화를 기초로 맥박을 검출한다. 맥박 산출부(606)도 이 헤모글로빈의 특성을 이용하는 점에 대해서는 동일하다. 단, 검출하는 근거가 되는 데이터가 화상 데이터인 점이 펄스 옥시미터와 다르다.

특징점 추출부(602)가 출력하는 특징점 데이터는 감정 추정부(607)에도 공급된다.

감정 추정부(607)는 특징점 추출부(602)가 생성하는 특징점 데이터를, 특징량(616)을 참조하여, 예를 들면 베이즈 추정이나 서포트 벡터 머신 등의 지도 학습 알고리즘을 이용하여 유저(102)가 평상시 표정으로부터 어떻게 표정이 변화했는지 여부, 즉 유저(102)의 감정을 추정한다.

도 6에 나타내는 바와 같이, 입출력 제어부(608)에는 촬상 장치(106)로부터 얻어지는 화상 데이터 스트림으로부터 얻어지는 유저(102)의 인게이지먼트값, 유저(102)의 감정을 나타내는 감정 데이터, 유저(102)의 맥박을 나타내는 맥박 데이터가 공급된다.

한편, 유저(102)는 표시부(104)에 표시되는 소정의 컨텐츠(105)를 시청하고 있다. 컨텐츠(105)는 네트워크 스토리지(609)로부터 인터넷(107)을 통해, 혹은 로컬 스토리지(610)로부터 컨텐츠 재생 처리부(611)에 공급된다. 컨텐츠 재생 처리부(611)는 조작부(506)의 조작 정보에 따라서 컨텐츠(105)를 재생하여 표시부(104)에 표시한다. 또한, 컨텐츠 재생 처리부(611)는 컨텐츠(105)를 한번에 식별하는 컨텐츠 ID와, 컨텐츠(105)의 재생 위치를 나타내는 재생 위치 정보를 입출력 제어부(608)에 출력한다.

여기서, 컨텐츠(105)의 재생 위치 정보는 컨텐츠(105)의 종류에 의해 그 내용이 상이하다. 예를 들면, 컨텐츠(105)가 동영상 데이터이면 재생 시간 정보에 상당한다. 또한, 컨텐츠(105)가 프레젠테이션 자료나 게임 등의 데이터나 프로그램이면, 「페이지」, 「씬 번호」, 「장」, 「절」 등의 컨텐츠(105)를 구분하는 정보에 상당한다.

입출력 제어부(608)에는 컨텐츠 재생 처리부(611)로부터 컨텐츠 ID와 재생 위치 정보가 공급된다. 또한, 이들 정보에 추가로 입출력 제어부(608)에는 RTC(505)로부터 출력되는 컨텐츠 시청 시점에 있어서의 현재 일시 정보, 즉 시청 일시 정보와 불휘발성 스토리지(504) 등에 기억되어 있는 유저 ID(612)가 공급된다. 여기서, 유저 ID(612)란, 유저(102)를 한번에 식별하는 정보이지만, 이 유저 ID(612)는 유저(102)의 개인 정보를 보호하는 관점에서 주지의 배너 광고 등에 사용되는 난수 등을 기초로 만들어지는 익명 ID인 것이 바람직하다.

입출력 제어부(608)는 유저 ID(612), 시청 일시, 컨텐츠 ID, 재생 위치 정보, 맥박 데이터, 인게이지먼트값, 감정 데이터를 수취하여 송신 데이터(613)를 구성한다. 이 송신 데이터(613)는 유저 ID(612)로 한번에 식별되어 서버(108)의 데이터 베이스(614)에 축적된다. 그 때, 데이터 베이스(614)에는 유저 ID 필드, 시청 일시 필드, 컨텐츠 ID 필드, 재생 위치 정보 필드, 맥박 데이터 필드, 인게이지먼트값 필드, 감정 데이터 필드를 갖는 도시하지 않은 테이블이 형성되고, 송신 데이터(613)가 이 테이블에 축적된다.

한편, 입출력 제어부(608)가 출력하는 송신 데이터(613)를, 일단 RAM(503) 또는 불휘발성 스토리지(504)에 기억하고, 가역적 데이터 압축 처리를 실시하고 난 후 서버(108)로 송신해도 된다. 서버(108)에 있어서의 클러스터 분석 처리부(615) 등의 데이터 처리 기능은 대부분의 경우, 컨텐츠(105)의 재생과 동시일 필요가 없다. 따라서, 예를 들면, 유저(102)가 컨텐츠(105)의 시청을 끝낸 후에 송신 데이터(613)를 압축한 데이터를 서버(108)로 업로드해도 된다.

서버(108)는 다수의 익명의 유저(102)가 컨텐츠(105)를 시청했을 때의 재생 위치 정보에 있어서의 인게이지먼트값에 추가로 맥박과 감정까지도 취득하여, 데이터 베이스(614)에 축적할 수 있다. 유저(102)의 수가 증가할수록, 또한 컨텐츠(105)의 수가 증가할수록, 데이터 베이스(614)의 데이터는 클러스터 분석 처리부(615) 등의 통계적 해석 처리에 바람직한 빅데이터로서의 이용 가치가 높아진다.

[제2 실시형태：인게이지먼트값 처리 시스템(801)의 소프트웨어 기능]

도 8은 본 발명의 제2 실시형태에 따른 인게이지먼트값 처리 시스템(801)의 소프트웨어 기능을 나타내는 블럭도이다.

도 8에 나타내는 본 발명의 제2 실시형태에 따른 인게이지먼트값 처리 시스템(801)에 있어서, 도 6에 나타낸 본 발명의 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)과의 차이점은 이하의 4가지이다.

(1) 클라이언트(103)에 있었던 벡터 해석부(603), 인게이지먼트 산출부(604), 감정 추정부(607) 및 맥박 산출부(606)가 서버(802)에 존재하는 것.

(2) 맥박 산출부(606)가, 맥박 검출 영역 추출부(605)가 생성하는 부분 화상 데이터로부터 녹색 성분을 발췌하여 픽셀마다의 휘도의 평균값을 산출하는 휘도 평균값 산출부(803)로 치환되어 있는 것.

(3) 상기 (1) 및 (2)에 의해, 입출력 제어부(804)가 생성하는 송신 데이터(805)로서 맥박 데이터 대신에 휘도 평균값이 송신되고, 인게이지먼트값 및 감정 데이터 대신에 특징점 데이터가 송신되는 것.

(4) 상기 (3)에 의해, 서버(802)의 데이터 베이스(806)에는 유저 ID 필드, 시청 일시 필드, 컨텐츠 ID 필드, 재생 위치 정보 필드, 휘도 평균값 필드 및 특징점 필드를 갖는 도시하지 않은 테이블이 작성되고, 송신 데이터(805)가 축적되는 것.

즉, 제2 실시형태의 인게이지먼트값 처리 시스템(801)은 제1 실시형태에 있어서 클라이언트(103)에 존재하는 기능 블록 중, 부하가 높은 연산 처리의 인게이지먼트 산출부(604), 감정 추정부(607) 및 맥박 산출부(606)를 서버(802)에 이설하고 있다.

인게이지먼트 산출부(604)는 다수의 행렬 연산 처리를, 감정 추정부(607)는 학습 알고리즘의 연산 처리를, 맥박 산출부(606)는 단시간 푸리에 변환 혹은 이산 웨이블릿 변환 등을 필요로 하기 때문에 연산 처리의 부하가 높다. 이에, 이들 기능 블록(소프트웨어 기능)을 연산 리소스가 윤택한 서버(802)에 갖게 하고, 서버(802) 상에서 이들 연산 처리를 실행함으로써, 클라이언트(103)가 저자원 장치여도 인게이지먼트값 처리 시스템(801)을 실현할 수 있다.

한편, 휘도 평균값 산출부(803)는 네트워크에 통하는 데이터량을 삭감하기 위해, 클라이언트(103) 측에 형성했다.

그리고, 제2 실시형태의 서버(802)의 데이터 베이스(806)도, 최종적으로는 제1 실시형태의 데이터 베이스(614)와 동일하게 유저 ID(612), 시청 일시, 컨텐츠 ID, 재생 위치 정보, 맥박 데이터, 인게이지먼트값, 감정 데이터가 축적된다.

또한, 인게이지먼트 산출부(604)가 연산 처리시 참조하는 클라이언트(103)의 표시부(104)의 크기와 촬상 장치(106)의 설치 위치 등의 정보는 유저 ID(612)에 관련지어 미리 클라이언트(103)로부터 서버(802)로 송신하여 서버(802)의 데이터 베이스(806)에서 유지할 필요가 있다.

이상 설명한 바와 같이, 본 발명의 제2 실시형태에 따른 인게이지먼트값 처리 시스템(801)에서는 본 발명의 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)에 있어서, 클라이언트(103)에 있었던 인게이지먼트 산출부(604), 감정 추정부(607) 및 맥박 산출부(606)를 서버(802)에 이설했다. 이 때문에, 도 8에 나타내는 바와 같이, 입출력 제어부(804)로부터 출력되는 송신 데이터(805)는 유저 ID(612), 시청 일시, 컨텐츠 ID, 재생 위치 정보, 휘도 평균값, 특징점 데이터로 구성된다. 특징점 데이터는 인게이지먼트 산출부(604)와 감정 추정부(607)가 참조하는 데이터이다. 휘도 평균값은 맥박 산출부(606)가 참조하는 데이터이다.

[특징점 데이터에 대해서]

얼굴 검출 처리부(601), 특징점 추출부(602), 그리고 벡터 해석부(603)의 동작에 대해서 이하에 설명한다.

도 9a는 촬상 장치(106)로부터 출력되는 화상 데이터 스트림의 일례를 나타내는 개략도이다. 도 9b는 얼굴 검출 처리부(601)가 출력하는 얼굴 추출 화상 데이터의 일례를 나타내는 개략도이다. 도 9c는 특징점 추출부(602)가 출력하는 특징점 데이터의 일례를 나타내는 개략도이다.

먼저, 촬상 장치(106)로부터 유저(102)를 포함하는 화상 데이터 스트림이 실시간으로 출력된다. 이것이 도 9a의 화상 데이터(P901)이다.

다음으로, 얼굴 검출 처리부(601)는 촬상 장치(106)로부터 출력되는 화상 데이터(P901)로부터, 예를 들면 Viola-Jones법 등의 주지의 알고리즘을 이용하여 유저(102)의 얼굴의 존재를 검출한다. 그리고, 유저(102)의 얼굴만을 추출한 얼굴 추출 화상 데이터를 출력한다. 이것이 도 9b의 얼굴 추출 화상 데이터(P902)이다.

그리고, 특징점 추출부(602)는 얼굴 추출 화상 데이터(P902)에 포함되는 유저(102)의 얼굴 화상에 폴리곤 해석 등의 처리를 실시한다. 그리고, 유저(102)의 얼굴 전체, 눈썹, 눈, 코, 입 등의 윤곽과 눈동자를 나타내는 얼굴의 특징점으로 이루어지는 특징점 데이터를 생성한다. 이것이 도 9c의 특징점 데이터(P903)이다. 이 특징점 데이터(P903)는 2차원 공간 내에 있어서의 좌표 정보를 갖는 특징점의 집합체로 구성된다.

2차원의 특징점 데이터를 시간축 상에서 상이한 타이밍으로 2세트 취득하면, 유저(102)의 얼굴이 약간 움직임으로써 각각의 특징점 데이터에 차이가 생긴다. 이 차이를 기초로 유저(102)의 얼굴 방향을 산출할 수 있다. 이것이 얼굴 방향 벡터이다.

또한, 눈의 윤곽에 대한 눈동자의 배치는 유저(102)의 얼굴에 대한 대략의 시선 방향을 산출할 수 있다. 이것이 시선 방향 벡터이다.

벡터 해석부(603)는 이상과 같은 처리로 특징점 데이터로부터 얼굴 방향 벡터와 시선 방향 벡터를 생성한다. 다음으로, 벡터 해석부(603)는 이들 얼굴 방향 벡터와 시선 방향 벡터를 가산한다. 즉, 유저(102)가 얼굴을 어느 쪽으로 향하고, 또한 시선을 어느 쪽으로 향하고 있는지를 알기 위해 얼굴 방향 벡터와 시선 방향 벡터를 가산하여, 최종적으로 유저(102)가 표시부(104)와 촬상 장치(106)를 포함하는 3차원 공간 내의 어디를 주시하고 있는지를 나타내는 주시 방향 벡터를 산출한다. 또한, 벡터 해석부(603)는 주시 방향 벡터의 시간축 상의 변동량인 벡터 변동량도 산출한다.

도 9c에 나타내는 바와 같이, 유저(102)의 눈에 해당하는 개소에는 눈의 윤곽 부분과 눈동자의 중심을 나타내는 점이 존재한다. 벡터 해석부(603)는 윤곽 내에 눈동자의 중심을 나타내는 점이 있음으로써, 시선 방향 벡터를 검출할 수 있다. 반대로, 윤곽 내에 눈동자의 중심을 나타내는 점이 없으면 벡터 해석부(603)는 시선 방향 벡터를 검출할 수 없다. 즉, 유저(102)가 눈을 감고 있으면, 특징점 추출부(602)가 눈의 윤곽 부분 내에 눈동자의 중심을 나타내는 점을 검출할 수 없게 되므로, 벡터 해석부(603)는 시선 방향 벡터를 검출할 수 없게 된다. 도 7의 눈감김 판정부(709)는 이 시선 방향 벡터의 유무를 기초로 유저(102)의 눈감김 상태를 검출한다.

눈감김 판정 처리는 상술한 것 이외에 눈의 화상을 직접 인식하는 등의 방법도 있으며, 어플리케이션이 요구하는 필요한 정밀도에 따라 적절히 변경 가능하다.

[맥박의 검출 영역에 대해서]

도 10은 맥박 검출 영역 추출부(605)가 유저(102)의 얼굴 화상 데이터로부터 부분 화상 데이터로서 절출하는 영역을 모식적으로 나타내는 도면이다.

특허문헌 2에도 기재되어 있지만, 얼굴의 피부색으로부터 맥박을 바르게 검출하기 위해서는, 얼굴 화상 데이터 중, 눈, 콧구멍, 입술, 두발이나 수염 등의 피부색과는 무관한 요소를 가능한 한 배제할 필요가 있다. 특히, 눈은 움직임이 격렬하고, 또한 눈꺼풀을 닫거나 열기 때문에 화상 데이터 중에 눈동자가 존재하거나 존재하지 않아, 단시간에 급격한 휘도의 변화가 일어나므로 휘도의 평균값을 산출할 때 악영향을 미친다. 또한, 개인차가 있지만 두발과 수염의 존재는 피부색의 검출을 크게 저해한다.

이상을 고려하면 도 10에 나타내는 바와 같이, 눈 아래의 영역(1001a 및 1001b)이 눈, 두발, 수염의 존재에 의해 영향을 받기 어렵고, 비교적 안정적으로 피부색을 검출 가능한 영역의 일례이다.

본 발명의 실시형태에 따른 인게이지먼트값 처리 시스템(101)에서는, 유저(102)의 얼굴을 벡터화하여 유저(102)의 얼굴을 인식하는 기능을 갖고 있으므로, 맥박 검출 영역 추출부(605)는 얼굴 특징점으로부터 눈 아래의 영역의 좌표 정보를 산출하는 것을 실현할 수 있다.

[감정의 추정에 대해서]

도 11은 감정 추정부(607)가 실시하는 감정의 분류를 설명하는 개략도이다.

폴 에크만(Paul Ekman)에 의하면, 인간은 어떠한 언어권이나 문화권에 속해 있어도 보편적인 감정을 갖고 있다고 한다. 또한, 에크만에 의한 감정의 분류는 「에크만의 기본 6정동」이라고도 불린다. 평상시의 무표정(F1101)에 비해, 놀람(F1102), 공포(F1103), 혐오(F1104), 분노(F1105), 기쁨(F1106), 슬픔(F1107)의 6감정에 있어서 인간의 표정은 변화한다. 표정의 변화는 얼굴 특징점의 변화가 되어 나타난다. 감정 추정부(607)는 시간축 상에 있어서의 얼굴 특징점의 상대적인 변동을 검출하고, 이를 에크만의 기본 6정동에 따라서 컨텐츠(105)의 재생 위치 정보 또는 시청 일시에 있어서의 유저(102)의 표정이 어느 감정에 속하는지를 추정한다.

[제３ 실시형태：인게이지먼트값 처리 장치(1201)의 하드웨어 구성]

인게이지먼트값은 컨텐츠의 재생 상태를 제어하는 정보로서도 유용하다.

도 12는 본 발명의 제３ 실시형태에 따른 인게이지먼트값 처리 장치(1201)의 하드웨어 구성을 나타내는 블럭도이다.

도 12에 나타내는 인게이지먼트값 처리 장치(1201)의 하드웨어 구성은, 도 5에 나타내는 본 발명의 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)의 클라이언트(103)와 동일하다. 이 때문에, 동일한 구성요소에는 동일한 부호를 부여하고, 그 설명을 생략한다.

인게이지먼트값 처리 장치(1201)는 본 발명의 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)과는 달리, 독립적 구성이다. 그러나, 반드시 독립적 구성이어야 하는 것은 아니며, 필요에 따라 제1 실시형태와 동일하게 산출한 인게이지먼트값 등을 서버(108)로 업로드해도 된다.

[제３ 실시형태：인게이지먼트값 처리 장치(1201)의 소프트웨어 기능]

도 13은 본 발명의 제３ 실시형태에 따른 인게이지먼트값 처리 장치(1201)의 소프트웨어 기능을 나타내는 블럭도이다. 도 13에 나타내는 인게이지먼트값 처리 장치(1201) 중, 도 6에 나타내는 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)과 동일한 기능 블록에는 동일한 부호를 부여하고 설명을 생략한다. 한편, 도 13의 인게이지먼트 산출부(604)는 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)의 인게이지먼트 산출부(604)와 동일한 기능을 가지므로, 도 7에 나타내는 인게이지먼트 산출부(604)와 동일한 기능 블록으로 구성된다.

도 13에 나타내는 인게이지먼트값 처리 장치(1201)의 도 6에 나타내는 제1 실시형태에 따른 인게이지먼트값 처리 시스템(101)과의 차이점은, 입출력 제어부(1301)에 재생 제어부(1302)가 포함되어 있는 것과, 컨텐츠 재생 처리부(1303)가 재생 제어부(1302)의 제어 정보에 기초하여 컨텐츠의 재생/정지/재생 속도의 변경을 실행하는 점이다.

즉, 유저(102)의 컨텐츠에 대한 집중 정도를 컨텐츠의 재생 속도 및 재생 상태에 반영하고 있다.

유저(102)가 컨텐츠에 대해 집중하고 있지 않은(인게이지먼트값이 낮은) 상태에서는 재생을 일시정지함으로써, 유저(102)가 컨텐츠를 확실히 열람할 수 있도록 한다. 반대로, 유저(102)가 컨텐츠에 대해 집중하고 있는(인게이지먼트값이 높은) 상태에서는 재생 속도를 높임으로써, 유저(102)가 보다 빠르게 컨텐츠를 열람할 수 있도록 한다.

이 재생 속도 변경 기능은 특히 학습 컨텐츠에 대해 유용하다.

도 14는 재생 제어부(1302)가 컨텐츠 재생 처리부(1303)에 부여하는 제어 정보에 의해 발생하는 인게이지먼트값과 컨텐츠의 재생 속도의 대응 관계의 일례를 나타내는 그래프이다. 가로축은 인게이지먼트값이며, 세로축은 컨텐츠 재생 속도이다.

재생 제어부(1302)는 인게이지먼트 산출부(604)로부터 출력되는 인게이지먼트값을 복수의 소정 역치와 비교하여, 컨텐츠 재생 처리부(1303)에 대해 컨텐츠의 재생 또는 일시정지, 그리고 컨텐츠를 재생할 때에는 그 재생 속도를 지시한다.

도 14에서는 일례로서,

·유저(102)의 인게이지먼트값이 30％ 미만이 되면 컨텐츠의 재생을 일시정지하고,

·유저(102)의 인게이지먼트값이 30％ 이상 40％ 미만이 되면 컨텐츠를 0.8배속으로 재생하고,

·유저(102)의 인게이지먼트값이 40％ 이상 50％ 미만이 되면 컨텐츠를 0.9배속으로 재생하고,

·유저(102)의 인게이지먼트값이 50％ 이상 60％ 미만이 되면 컨텐츠를 1.0배속으로 재생하고,

·유저(102)의 인게이지먼트값이 60％ 이상 70％ 미만이 되면 컨텐츠를 1.2배속으로 재생하고,

·유저(102)의 인게이지먼트값이 70％ 이상 80％ 미만이 되면 컨텐츠를 1.3배속으로 재생하고,

·유저(102)의 인게이지먼트값이 80％ 이상 90％ 미만이 되면 컨텐츠를 1.4배속으로 재생하고,

·유저(102)의 인게이지먼트값이 90％ 이상이 되면 컨텐츠를 1.5배속으로 재생하도록 컨텐츠 재생 처리부(1303)의 제어가 행해진다.

한편, 재생 제어부(1302)에서 설정되는 역치나 재생 속도는 소정의 GUI(Graphical User Interface)를 이용하여 유저(102)의 임의로 변경할 수 있는 것이 바람직하다.

본 발명의 실시형태에 있어서는 인게이지먼트값 처리 시스템(101), 인게이지먼트값 처리 시스템(801) 및 인게이지먼트값 처리 장치(1201)를 개시했다.

표시부(104) 근방에 설치되는 촬상 장치(106)는, 컨텐츠(105)를 시청하는 유저(102)의 얼굴을 촬영하여 화상 데이터 스트림을 출력한다. 이 화상 데이터 스트림으로부터 특징점 추출부(602)에 의해 얼굴의 특징점의 집합체인 특징점 데이터가 생성된다. 그리고, 이 특징점 데이터로부터 주시 방향 벡터와 벡터 변동량이 산출된다. 인게이지먼트 산출부(604)는, 이들 데이터로부터 유저(102)의 컨텐츠(105)에 대한 인게이지먼트값을 산출한다.

한편, 특징점 데이터는 맥박을 검출할 때의 부분 화상 데이터의 절출에도 이용할 수 있다. 또한, 특징점 데이터는 유저(102)의 감정 추정에도 이용할 수 있다. 따라서, 촬상 장치(106)로 유저(102)를 촬영하는 것만으로, 컨텐츠(105)를 시청하는 유저(102)의 컨텐츠(105)에 대한 인게이지먼트값과, 맥박과, 감정을 동시에 취득할 수 있고, 유저(102)가 어느 정도 주의를 기울이고 있는지 뿐만 아니라 어느 정도 흥미를 가졌는지 등을 포함하여 종합적으로 유저(102)의 행동이나 감정을 파악할 수 있다.

또한, 인게이지먼트값을 컨텐츠의 재생과 일시정지, 그리고 재생 속도의 제어에 이용함으로써, 유저(102)에 대한 학습 효과를 향상시키는 것을 기대할 수 있다.

이상, 본 발명의 실시형태에 대해서 설명했지만, 본 발명은 상기 실시형태로 한정되는 것은 아니며, 청구 범위에 기재한 본 발명의 요지를 일탈하지 않는 한, 다른 변형예, 응용예를 포함한다.

예를 들면, 상기 실시형태는 본 발명을 알기 쉽게 설명하기 위해 장치 및 시스템의 구성을 상세하고 구체적으로 설명한 것이며, 반드시 설명한 모든 구성을 구비하는 것으로 한정되는 것은 아니다. 또한, 어느 실시형태의 구성의 일부를 다른 실시형태의 구성으로 치환하는 것은 가능하며, 또한 어느 실시형태의 구성에 다른 실시형태의 구성을 더하는 것도 가능하다. 또한, 각 실시형태의 구성의 일부에 대해서 다른 구성의 추가·삭제·치환을 하는 것도 가능하다.

또한, 상기의 각 구성, 기능, 처리부 등은 이들의 일부 또는 전부를, 예를 들면 집적 회로로 설계하는 등에 의해 하드웨어로 실현되어도 된다. 또한, 상기의 각 구성, 기능 등은 프로세서가 각각의 기능을 실현하는 프로그램을 해석하고, 실행하기 위한 소프트웨어로 실현해도 된다. 각 기능을 실현하는 프로그램, 테이블, 파일 등의 정보는 메모리나 하드 디스크, SSD(Solid State Drive) 등의 휘발성 혹은 불휘발성 스토리지, 또는 IC 카드, 광디스크 등의 기록 매체에 유지할 수 있다.

또한, 제어선이나 정보선은 설명상 필요하다고 생각되는 것을 나타내고 있으며, 제품상 반드시 모든 제어선이나 정보선을 나타내고 있다고는 할 수 없다. 실제로는 대부분의 모든 구성이 상호 접속되어 있다고 생각해도 된다.

101…인게이지먼트값 처리 시스템, 102…유저, 103…클라이언트, 104…표시부, 105…컨텐츠, 106…촬상 장치, 107…인터넷, 108…서버, 301…LCD 디스플레이, 302…USB 타입 web 카메라, 303…노트북 컴퓨터, 304…LCD 디스플레이, 305…web 카메라, 306…휴대형 무선 단말, 307…LCD 디스플레이, 308…셀피용 인카메라, 501…CPU, 502…ROM, 503…RAM, 504…불휘발성 스토리지, 505…RTC, 506…조작부, 507…버스, 508…NIC, 511…CPU, 512…ROM, 513…RAM, 514…불휘발성 스토리지, 515…NIC, 516…버스, 601…얼굴 검출 처리부, 602…특징점 추출부, 603…벡터 해석부, 604…인게이지먼트 산출부, 605…맥박 검출 영역 추출부, 606…맥박 산출부, 607…감정 추정부, 608…입출력 제어부, 609…네트워크 스토리지, 610…로컬 스토리지, 611…컨텐츠 재생 처리부, 612…유저 ID, 613…송신 데이터, 614…데이터 베이스, 615…클러스터 분석 처리부, 616…특징량, 701…벡터 가산부, 702…주시 방향 판정부, 703…초기 보정값, 704…제1 평활화 처리부, 705…제2 평활화 처리부, 706…샘플수, 707…인게이지먼트 연산 처리부, 708…곁눈질 판정부, 709…눈감김 판정부, 710…중요 계수, 801…인게이지먼트값 처리 시스템, 802…서버, 803…휘도 평균값 산출부, 804…입출력 제어부, 805…송신 데이터, 806…데이터 베이스, 1201…인게이지먼트값 처리 장치, 1301…입출력 제어부, 1302…재생 제어부, 1303…컨텐츠 재생 처리부

Claims

컨텐츠를 표시하는 표시부와,
상기 표시부를 보는 유저의 얼굴을 촬영 가능한 방향으로 설치되는 촬상 장치와,
상기 촬상 장치로부터 출력되는 화상 데이터 스트림으로부터 상기 유저의 얼굴의 존재를 검출하고, 상기 유저의 얼굴을 추출한 얼굴 추출 화상 데이터를 출력하는 얼굴 검출 처리부와,
상기 얼굴 추출 화상 데이터로부터 상기 유저의 얼굴 윤곽을 포함하는, 2차원 공간 내에 있어서의 좌표 정보를 갖는 특징점의 집합체인 특징점 데이터를 출력하는 특징점 추출부와,
상기 특징점 데이터로부터 상기 유저의 얼굴 방향을 나타내는 얼굴 방향 벡터와, 상기 유저의 얼굴에 있어서의 시선 방향을 나타내는 시선 방향 벡터를 소정의 샘플링 레이트로 생성하는 벡터 해석부와,
상기 얼굴 방향 벡터와 상기 시선 방향 벡터로부터 상기 유저의 상기 컨텐츠에 대한 인게이지먼트값을 산출하는 인게이지먼트 산출부와,
상기 유저를 한번에 식별하는 유저 ID와, 상기 유저가 상기 컨텐츠를 시청한 시청 일시와, 상기 컨텐츠를 한번에 식별하는 컨텐츠 ID와, 상기 컨텐츠의 재생 위치를 나타내는 재생 위치 정보와, 상기 인게이지먼트 산출부가 출력하는 상기 유저의 상기 컨텐츠에 대한 상기 인게이지먼트값을 축적하는 데이터 베이스를 구비하는 인게이지먼트값 처리 시스템.
제 1 항에 있어서,
상기 인게이지먼트 산출부는,
상기 얼굴 방향 벡터와 상기 시선 방향 벡터를 가산하여, 상기 유저가 컨텐츠를 표시하는 상기 표시부와 상기 촬상 장치를 포함하는 3차원 공간 내의 어디를 주시하고 있는지를 나타내는 주시 방향 벡터를 산출하는 벡터 가산부와,
상기 주시 방향 벡터가 상기 표시부를 향하고 있는지 여부를 판정하는 주시 방향 판정 결과를 출력하는 주시 방향 판정부와,
상기 주시 방향 판정 결과에 대해 소정의 샘플수로 평활화를 행하는 평활화 처리부를 구비하는 인게이지먼트값 처리 시스템.
제 2 항에 있어서,
상기 인게이지먼트 산출부는, 추가로,
상기 얼굴 방향 벡터가 상기 표시부를 향하고 있는지 여부를 판정하는 곁눈질 판정부와,
상기 유저가 눈을 감고 있는지 여부를 판정하는 눈감김 판정부와,
상기 평활화 처리부가 출력하는 인게이지먼트 기초값과, 상기 곁눈질 판정부가 출력하는 곁눈질 판정 결과와, 상기 눈감김 판정부가 출력하는 눈감김 판정 결과를 소정의 중요 계수로 곱한 후에 가산하는 인게이지먼트 연산 처리부를 구비하는 인게이지먼트값 처리 시스템.
제 3 항에 있어서,
추가로, 상기 특징점 데이터에 기초하여 상기 얼굴 추출 화상 데이터에 포함되는 상기 유저의 얼굴 일부에 상당하는 화상 데이터의 절출을 실행하고, 얻어진 부분 화상 데이터를 출력하는 맥박 검출 영역 추출부와,
상기 부분 화상 데이터의 특정 색 성분의 휘도의 시간축 상의 변동량으로부터 상기 유저의 맥박을 산출하는 맥박 산출부를 구비하고,
상기 데이터 베이스는 상기 맥박 산출부가 출력하는 상기 유저의 맥박 데이터도 축적하는 인게이지먼트값 처리 시스템.
제 4 항에 있어서,
추가로, 상기 특징점 데이터를 기초로 유저의 감정을 추정하는 감정 추정부를 구비하고,
상기 데이터 베이스는 상기 감정 추정부가 추정하는 상기 유저의 감정을 나타내는 감정 데이터를 축적하는 인게이지먼트값 처리 시스템.
컨텐츠를 재생하는 컨텐츠 재생 처리부와,
상기 컨텐츠를 표시하는 표시부와,
상기 표시부를 보는 유저의 얼굴을 촬영 가능한 방향으로 설치되는 촬상 장치와,
상기 촬상 장치로부터 출력되는 화상 데이터 스트림으로부터 상기 유저의 얼굴의 존재를 검출하여, 상기 유저의 얼굴을 추출한 얼굴 추출 화상 데이터를 출력하는 얼굴 검출 처리부와,
상기 얼굴 추출 화상 데이터로부터 상기 유저의 얼굴 윤곽을 포함하는 2차원 공간 내에 있어서의 좌표 정보를 갖는 특징점의 집합체인 특징점 데이터를 출력하는 특징점 추출부와,
상기 특징점 데이터로부터 상기 유저의 얼굴 방향을 나타내는 얼굴 방향 벡터와, 상기 유저의 얼굴에 있어서의 시선 방향을 나타내는 시선 방향 벡터를 소정의 샘플링 레이트로 생성하는 벡터 해석부와,
상기 얼굴 방향 벡터와 상기 시선 방향 벡터로부터 상기 유저의 상기 컨텐츠에 대한 인게이지먼트값을 산출하는 인게이지먼트 산출부와,
상기 인게이지먼트값의 대소에 따라 상기 컨텐츠 재생 처리부에 대해 상기 컨텐츠의 재생/일시정지/재생 속도의 변경을 지시하는 재생 제어부를 구비하는 인게이지먼트값 처리 장치.
제 6 항에 있어서,
상기 인게이지먼트 산출부는,
상기 얼굴 방향 벡터와 상기 시선 방향 벡터를 가산하여, 상기 유저가 컨텐츠를 표시하는 상기 표시부와 상기 촬상 장치를 포함하는 3차원 공간 내의 어디를 주시하고 있는지를 나타내는 주시 방향 벡터를 산출하는 벡터 가산부와,
상기 주시 방향 벡터가 상기 표시부를 향하고 있는지 여부를 판정하는 주시 방향 판정 결과를 출력하는 주시 방향 판정부와,
상기 주시 방향 판정 결과에 대해 소정의 샘플수로 평활화를 행하는 평활화 처리부를 구비하는 인게이지먼트값 처리 장치.
제 7 항에 있어서,
상기 인게이지먼트 산출부는, 추가로,
상기 얼굴 방향 벡터가 상기 표시부를 향하고 있는지 여부를 판정하는 곁눈질 판정부와,
상기 유저가 눈을 감고 있는지 여부를 판정하는 눈감김 판정부와,
상기 평활화 처리부가 출력하는 인게이지먼트 기초값과, 상기 곁눈질 판정부가 출력하는 곁눈질 판정 결과와, 상기 눈감김 판정부가 출력하는 눈감김 판정 결과를 소정의 중요 계수로 곱한 후에 가산하는 인게이지먼트 연산 처리부를 구비하는 인게이지먼트값 처리 장치.