KR20160012902A

KR20160012902A - 시청자 사이의 연관 정보에 근거하여 광고를 재생하기 위한 방법 및 장치

Info

Publication number: KR20160012902A
Application number: KR1020150085142A
Authority: KR
Inventors: 잉 후앙; 준준 슝; 옌준 가오; 차오 얀; 치앙 왕; 야친 츄; 얀 첸
Original assignee: 삼성전자주식회사
Priority date: 2014-07-24
Filing date: 2015-06-16
Publication date: 2016-02-03
Also published as: CN105303998A

Abstract

실시 예에 따른 광고 재생 방법은 디스플레이 장치에 인접한 적어도 두 시청자들의 데이터를 수집하는 단계; 상기 데이터에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하는 단계; 상기 연관 정보에 따라 상기 디스플레이 장치에 재생할 광고를 결정하는 단계; 및 상기 디스플레이 장치 상에 상기 결정된 광고를 재생하는 단계를 포함한다.

Description

시청자 사이의 연관 정보에 근거하여 광고를 재생하기 위한 방법 및 장치{Method and device for playing advertisements based on associated information between audiences}

광고를 재생하기 위한 방법 및 장치에 관한 것이다.

미디어의 새로운 개념으로, 디지털 사이니지(signage)는 군중이 모이는 대형 쇼핑몰, 슈퍼마켓, 레스토랑, 영화관 또는 다른 공공 장소에서 대형 스크린으로 비즈니스, 금융, 엔터테인먼트 및 기타 정보를 제공하는 디지털 게시판이다. 디지털 사이니지는 광고 효과를 달성하기 위해 특정 시간 기간 동안에 특정 물리적 위치에 있는 특정 카테고리의 사람들에게 정보를 제공함을 목표로 한다. 최근, 인간-컴퓨터 상호 작용 기술의 개발에 맞춰, 컴퓨터 비전과 인공 지능은 정보 취득, 수집 및 모니터링, 인간-컴퓨터 상호 작용 인터페이스 설계와 다른 면에서 점점 더 중요한 역할을 하기 시작한다.

광고를 재생하는 방법 및 장치를 제공하는 데 있다.

일 실시 예에 따른 광고 재생 방법은 디스플레이 장치에 인접한 적어도 두 시청자들의 데이터를 수집하는 단계; 상기 데이터에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하는 단계; 상기 연관 정보에 따라 상기 디스플레이 장치에 재생할 광고를 결정하는 단계; 및 상기 디스플레이 장치 상에 상기 결정된 광고를 재생하는 단계를 포함한다.

또한, 상기 데이터를 수집하는 단계는 카메라 및 마이크를 통해 상기 데이터를 수집하고, 상기 카메라는 가시 광선 카메라, 깊이 카메라 및 적외선 카메라 중 하나 이상을 포함할 수 있다.

또한, 상기 카메라는 상기 적어도 두 시청자들의 이미지를 촬영하고, 상기 마이크는 상기 적어도 두 시청자들의 음성을 녹음할 수 있다.

또한, 상기 데이터로부터 상기 두 시청자들의 신체적 특징 또는 음성 특징을 추출할 수 있다.

또한, 상기 적어도 두 시청자들의 신체적 특징은 상기 적어도 두 시청자들 사이의 거리, 상기 적어도 두 시청자들의 얼굴 특징 또는 신체 관련 정보 중 적어도 하나를 포함할 수 있다.

또한, 상기 적어도 두 시청자들의 얼굴 특징은 얼굴의 수, 얼굴 기관의 특징, 얼굴 표정, 얼굴 피부색, 나이, 성별, 시점 및 얼굴 장신구 중의 하나 이상을 포함할 수 있다.

또한, 상기 적어도 두 시청자들의 신체 관련 정보는 신체의 수, 신체 부위의 특징, 신체의 동작, 헤어 스타일, 드레싱, 체형 및 동반 물품 중의 하나 이상을 포함할 수 있다.

또한, 상기 적어도 두 시청자들의 음성 특징은 언어의 유형, 음성의 내용 또는 음성의 소스 중의 하나 이상을 포함할 수 있다.

또한, 상기 연관 정보를 추출하는 단계는 상기 적어도 두 시청자들이 가족, 친구 또는 동료 중의 어느 관계인지를 결정할 수 있다.

또한, 상기 연관 정보를 추출하는 단계는 상기 적어도 두 시청자들의 성별, 나이, 피부색, 헤어 스타일, 드레싱, 체형, 얼굴 장신구, 또는 동반 물품 중의 하나 이상의 정보를 추출할 수 있다.

또한, 상기 데이터를 수집하는 단계는, 상기 디스플레이 장치 앞에 위치한 적어도 두 시청자들의 데이터를 수집할 수 있다.

또한, 시청자들의 인물 정보를 미리 저장하는 단계를 더 포함하고, 상기 연관 정보를 추출하는 단계는, 상기 인물 정보 중 상기 데이터와 매칭되는 인물 정보를 탐색하는 단계; 및 상기 데이터와 매칭되는 인물 정보에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하는 단계를 포함할 수 있다.

일 실시 예에 따른 광고 재생 장치는 광고를 표시하는 디스플레이 장치; 상기 디스플레이 장치에 인접한 적어도 두 시청자들의 데이터를 수집하는 입력부; 및 상기 데이터에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하고, 상기 연관 정보에 따라 상기 연관 정보에 대응하는 광고를 결정하고, 상기 디스플레이 장치를 제어하여 상기 결정된 광고를 재생하는 프로세서를 포함할 수 있다.

또한, 상기 입력부는 카메라 및 마이크를 포함하고, 상기 입력부는 상기 카메라 및 상기 마이크를 통해 상기 데이터를 수집하고, 상기 카메라는 가시 광선 카메라, 깊이 카메라 및 적외선 카메라 중 하나 이상을 포함할 수 있다.

또한, 상기 프로세서는 상기 데이터로부터 상기 두 시청자들의 신체적 특징 또는 음성 특징을 추출하고, 상기 신체적 특징 및 음성 특징에 기초하여 재생할 광고를 결정할 수 있다.

또한, 상기 프로세서는 상기 적어도 두 시청자들이 가족, 친구 또는 동료 중의 어느 관계인지에 따라 재생할 광고를 결정할 수 있다.

또한, 상기 프로세서는 상기 적어도 두 시청자들의 성별, 나이, 피부색, 헤어 스타일, 드레싱, 체형, 얼굴 장신구, 또는 동반 물품 중의 하나 이상의 정보를 추출하여 상기 추출된 하나 이상의 정보에 기초하여 재생할 광고를 결정할 수 있다.

또한, 상기 입력부는 상기 디스플레이 장치 앞에 위치한 적어도 두 시청자들의 데이터를 수집할 수 있다.

또한, 시청자들의 인물 정보를 미리 저장하는 메모리를 더 포함하고, 상기 프로세서는 상기 인물 정보 중 상기 데이터와 매칭되는 인물 정보를 탐색하고, 상기 데이터와 매칭되는 인물 정보에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출할 수 있다.

도 1은 일 실시 예에 따른 광고 재생 장치를 나타내는 구성도이다.
도 2는 일 실시 예에 따른 광고 재생 방법을 나타내는 순서도이다.
도 3은 음성 검출의 예시도이다.
도 4는 얼굴 윈도우 검출의 예시도이다.
도 5는 얼굴 기관의 특징을 찾는 예시도이다.
도 6은 얼굴 표정 정보, 연령 정보, 성별 정보 및 피부색 정보를 식별하는 예시도이다.
도 7은 시점을 산출하는 예시도이다.
도 8은 얼굴 장신구(furnishings)를 검출하는 예시도이다.
도 9는 신체 윈도우 검출의 예시도이다.
도 10은 신체 부분의 위치를 식별하는 예시도이다.
도 11은 신체의 동작 정보의 예시도이다.
도 12는 헤어 스타일 정보, 드레싱 정보 및 체형 정보를 식별하는 예시도이다.
도 13은 동반 물품 정보를 식별하는 예시도이다.
도 14는 체온 정보를 식별하는 예시도이다.
도 15는 음성 정보를 식별하는 예시도이다.
도 16은 음성의 소스를 찾는 예시도이다.
도 17은 연관 정보를 결정하는 예시도이다.
도 18은 융합된 광고 영상을 생성하는 예시도이다.
도 19는 신원을 식별하는 예시도이다.

도 1은 일 실시 예에 따른 광고 재생 장치를 나타내는 구성도이다. 도 1을 참조하면, 디바이스(100)는 디스플레이 장치(110), 카메라(120), 마이크(130) 및 프로세서(미도시)를 포함한다. 디바이스(100)는 디스플레이 장치(110) 전면의 시청자들에게 광고를 재생할 수 있다. 디바이스(100)는 광고 재생 장치일 수 있다. 카메라(120) 및 마이크(130)는 입력부의 일 예일 수 있다.

디스플레이 장치(110)는 프로세서의 제어에 따라 광고를 표시한다.

카메라(120)는 디스플레이 장치(110)에 인접한 시청자들을 촬영한다. 또는 카메라(120)는 디스플레이 장치(110)의 전면에 위치한 시청자들을 촬영할 수 있다. 카메라(120)는 가시광선 영상을 획득하거나, 깊이 영상을 획득하거나, 적외선 영상을 획득할 수 있다. 카메라(120)는 획득한 영상을 프로세서로 출력한다.

마이크(130)는 디스플레이 장치(110) 주변의 사운드를 수집한다. 사운드에는 잡음과 시청자들의 음성이 포함된다. 마이크(130)는 수집한 사운드를 프로세서로 출력한다.

프로세서는 카메라(120) 또는 마이크(130)로부터 수신된 데이터에 기초하여 시청자들에게 제공할 광고를 선택한다. 프로세서는 데이터로부터 적어도 두 시청자들의 특징을 추출하고, 특징에 따른 신체 간의 연관 정보를 추출한다. 특징은 신체 특징, 음성 특징 또는 생리적 특징 등 중 적어도 하나 이상을 포함한다. 적어도 두 시청자들의 신체 특징은 적어도 두 시청자들의 거리 정보, 적어도 두 시청자들의 얼굴 관련 정보 및 적어도 두 시청자들의 신체 관련 정보를 포함한다. 거리는 전후 거리 및/또는 좌우 거리를 포함한다. 구체적으로, 적어도 두 시청자들의 전후 거리는 깊이 정보에 따라 적어도 두 시청자들 각각으로부터 디스플레이 장치(110)까지의 거리를 계산함으로써 결정된다. 적어도 두 시청자들의 좌우 거리는 적어도 두 시청자들 사이의 신체 검출 윈도의 이격 거리를 계산함으로써 결정된다.

프로세서는 촬영된 영상에 포함된 시청자들의 얼굴을 검출하고, 검출된 얼굴로부터 적어도 두 시청자들의 얼굴 관련 정보를 추출한다. 적어도 두 시청자들의 얼굴 관련 정보는 얼굴의 수, 얼굴 기관의 특징, 얼굴 표정 정보, 얼굴 피부색, 나이, 성별, 시점 및 얼굴 장신구 등을 포함한다.

프로세서는 시청자들의 관계를 식별하고, 식별된 관계에 따라 어떤 광고를 재생할지를 선택할 수 있다.

프로세서는 디스플레이 장치(110)를 제어하여, 디스플레이 장치(110) 상에 광고가 재생되도록 한다.

프로세서는 카메라(120) 또는 마이크(130)를 통해 획득된 데이터를 분석하여 시청자들이 변경되었는지를 판단한다. 시청자들이 변경 경우, 프로세서는 변경된 시청자들에 적합한 광고를 다시 선택하여 재생한다.

디바이스(100)는 다수의 시청자들에 대한 인물 정보를 미리 저장할 수 있다. 예를 들어, 디바이스(100)는 촬영된 영상, 획득된 사운드, 신체 관련 정보, 음성 등을 메모리에 저장할 수 있다. 디바이스(100)는 디스플레이 장치(110)에 인접한 시청자들의 데이터를 수집하고, 데이터를 메모리에 저장할 수 있다. 또한, 디바이스(100)는 사용자에 의해 시청자의 정보를 미리 메모리에 저장할 수 있다.

디바이스(100)는 저장된 인물 정보를 이용하여 시청자들을 식별할 수 있다. 디바이스(100)는 저장된 인물 정보와 수집된 인물 정보를 비교하여 시청자들을 식별할 수 있다.

디바이스(100)는 저장된 인물 정보를 이용하여 시청자들에게 재공할 광고를 결정할 수 있다. 디바이스(100)는 다수의 시청자들의 나이, 성별, 체형, 가족 관계 등과 함께 사용자들에게 적합한 광고를 미리 결정하고, 광고를 저장한다. 디바이스(100)는 식별된 시청자들에 대해 결정된 광고를 재생할 수 있다.

도 2는 일 실시 예에 따른 시청자들 간의 연관 정보에 기초하여 광고를 재생하기 위한 방법의 흐름도이다.

단계 210에서, 디바이스(100)는 디스플레이 장치(110)에 인접한 적어도 두 시청자들의 데이터를 수집한다. 디바이스(100)는 디스플레이 장치(110) 앞에 위치한 시청자들을 촬영하여 데이터를 수집할도 있다. 디바이스(100)는 카메라(120) 또는 마이크(130) 등을 통해 시청자들의 데이터를 수집할 수 있다. 카메라(120)는 가시광선 카메라, 깊이 카메라 또는 적외선 카메라 등일 수 있다. 마이크(130)는 사운드를 수신한다. 디바이스(100)는 사운드가 음성을 포함하는지를 판단하고, 사운드로부터 음성을 검출한다. 사운드가 음성을 포함하는 경우, 디바이스(100)는 사운드에서 잡음을 필터링하여 사운드에 포함된 음성을 추출할 수 있다.

단계 220에서, 디바이스(100)는 데이터에 기초하여 적어도 두 시청자들 간의 연관 정보를 추출한다. 디바이스(100)는 적어도 두 시청자들이 어떠한 관계인지를 예측할 수 있다. 예를 들어, 디바이스(100)는 시청자들의 거리, 포즈, 대화 내용 등을 기초로 시청자들이 연인, 친구, 동료, 가족 등임을 예측할 수 있다. 디바이스(100)는 데이터로부터, 적어도 두 시청자들의 특징을 추출하고, 디바이스는 추출된 특징에 따라 시청자들 간의 연관 정보를 결정한다. 특징은 신체 특징, 음성 특징 및 생리학적 특징 중 적어도 하나를 포함한다.

디바이스(100)는 카메라(120)에 의해 촬영된 영상로부터, 적어도 두 시청자들의 신체 특징을 추출한다. 적어도 두 시청자들의 신체 특징은 적어도 두 시청자들의 거리, 적어도 두 시청자들의 얼굴 정보 및 적어도 두 시청자들의 신체 정보를 포함한다.

디바이스(100)는 촬영된 이미지로부터 적어도 두 시청자들의 거리를 결정한다. 거리는 적어도 두 시청자들의 전후 거리 및/또는 좌우의 거리를 포함한다. 구체적으로, 적어도 두 시청자들 사이의 전후 거리는 이미지의 깊이 정보에 따라 디스플레이 장치로부터 적어도 두 시청자들의 각각의 거리를 계산함으로써 결정된다.

단계 230에서, 디바이스(100)는 연관 정보에 따라 광고를 결정한다. 예를 들어, 시청자들이 연인인 경우, 디바이스(100)는 지갑, 꽃, 옷 등의 광고를 결정할 수 있다. 시청자들이 친구인 경우, 디바이스(100)는 여행, 음식 등의 광고를 결정할 수 있다. 시청자들이 동료인 경우, 디바이스(100)는 필기구, 사무용품 등의 광고를 결정할 수 있다. 시청자들이 가족인 경우, 디바이스(100)는 가전기기, 가구 등의 광고를 결정할 수 있다.

단계 240에서, 디바이스(100)는 디스플레이 장치(110) 상에 결정된 광고를 재생한다. 프로세서는 디스플레이 장치(110)를 제어하여 결정된 광고를 재생할 수 있다.

도 3은 일 실시 예에 따른 음성 추출 방법을 설명하기 위한 흐름도이다. 단계 310에서, 디바이스(100)는 마이크(130)를 통해 디스플레이 장치(110) 앞의 사운드 정보를 수집한다. 디바이스(100)는 매 10ms마다 프레임마다 사운드에 대한 추출을 수행한다. 단계 320에서, 디바이스(100)는 모든 프레임에서 추출된 사운드를 평활화 작업을 수행한다. 단계 330에서, 디바이스(100)는 N의 인접 도메인들 내에서 최대 절대 차이를 계산한다. 단계 340에서, 디바이스(100)는 고정된 배경 잡음 모델에 기초하여 사운드에서 잡음을 필터링한다. 예를 들면, 단게 350에서 변환된 전력 스펙트럼 신호를 얻기 위하여, FFT 변환이 소정의 잡음 계수 N에 의해 사운드에 대해 수행된다. 단계 350에서, 디바이스(100)는 최소 제곱 법(least square method)에 의해 자기-적응 결정 임계값을 획득된다. 단계 360에서, 디바이스(100)는 임계값을 결정하고, 전력 스펙트럼 신호가 임계값보다 큰 경우, 사운드가 음성임을 판단하고, 전력 스펙트럼 신호가 임계값 미만인 경우에 사운드가 잡음인 것으로 판단한다. 단계 370에서, 디바이스(100)는 판단 결과가 사운드가 음성를 포함하는 것을 나타내는 경우, 잡음을 필터링하여 사운드에 포함된 음성 정보를 추출한다.

도 4는 얼굴 윈도우 검출의 예시도이다.

단계 401에서, 디바이스(100)는 얼굴에 속하지 않는 배경 이미지를 깊이 정보에 따라 필터링한다.

단계 402에서, 다운-샘플링은 소정의 radio 및 레벨에서 가시광선 영상에 대해 수행된다. 예를 들어, 다운-샘플링은 radio=1.259에서 한 이미지에 대해서 수행된다.

단계 403에서, 각 레벨의 RLAB 특징은 24-레벨 이미지 피라미드를 설정함으로써 개별적으로 계산된다.

단계 404에서, 각 레벨의 특징 이미지는 24*24, 즉, 윈도우 탐색(window traversing)에 의해 고정된 윈도우에 의해 스캐닝된다.

단계 405에서, 윈도우 이미지와 캐스케이드 필터의 출력 응답이 계산되고, 계산 결과는 제1 트레이닝 임계값과 비교된다.

단계 406에서, 계산 결과가 트레이닝 임계값보다 큰 경우, 한 얼굴이 식별된 것으로 결정되고, 계산 결과가 제1 트레이닝 임계값보다 작을 때, 어떠한 얼굴도 식별되지 않은 것으로 결정된다.

단계 407에서, 검출 윈도우의 크기에 따라, 검출 윈도우의 영역을 넘은 배경 샘플 및 검출 윈도우 내의 얼굴 샘플이 수집된다.

단계 408에서, 배경 샘플과 얼굴 샘플의 Haar-like 특징이 계산된다.

단계 409에서, 실시간 온라인 학습이 베이즈 분류기(Bayes classifier)에 의해 수행된다.

단계 410에서, 추적은 출력된 얼굴 검출 윈도우 정보를 획득하는 학습에 의해 획득된 온라인 모델을 사용함으로써 수행된다.

단계 411에서, 마지막으로, 얼굴의 수는 얼굴 검출 윈도우의 개수에 따라 결정된다.

디바이스(100)는 얼굴 검출 윈도우 정보를 취득하기 위하여 가시광선 영상과 깊이 정보에 따라 얼굴 윈도우 검출을 수행하고, 얼굴 검출 윈도우의 개수에 따라 얼굴의 수를 결정한다. 일 실시예에서, 얼굴 윈도우 검출은 가시광선 영상과 깊이 정보에 따라 RLAB (Random Local Assembly Blocks; 랜덤 로컬 조립 블록) 및 Adaboost 의 방식으로 실시간으로 수행될 수 있다.

도 5는 얼굴 기관의 특징을 찾는 예시도이다.

단계 510에서, 디바이스(100)는 얼굴 기관의 특징을 추출하기 위해 얼굴 검출 윈도우에 따라 얼굴의 기관을 찾는다. 얼굴 기관의 찾기는 주로 눈, 눈썹, 입, 코, 귀의 특징점의 찾기를 포함한다.

디바이스(100)는 이미지 정보에 따라 얼굴 검출에 의하여 얼굴 정보를 추출한다. 적어도 두 시청자들의 얼굴 정보는 얼굴의 수, 얼굴 기관 특징, 얼굴 표정, 얼굴 피부색, 나이, 성별, 시점의 방향, 및 얼굴 장신구(furnishings)를 중 적어도 하나를 포함한다.

얼굴 검출 상자들은 얼굴 검출 상자(520)에 따라 평균 얼굴 모델 크기, 예를 들어, 64*64의 평균 형상의 얼굴 크기로 정규화된다. 얼굴 검출 상자 내 평균 형상 얼굴의 HOG 특징(530)과, 이터레이션(iteration)이 트레이닝에 의해 얻어진 SDM(Supervised Descent Method; 감수 하강 방법)을 사용하여 수행되고, 얼굴 기관의 특징점의 위치들이 얼굴 기관의 특징점(540)의 위치를 획득하기 위해 연속적으로 업데이트된다.

디바이스(100)는 얼굴 검출 윈도우 정보와 얼굴 기관의 특징에 따라 얼굴 정상화 및 조명 정상화에 의한 얼굴 질감(texture; 텍스쳐) 특징 정보를 추출하고, 디바이스(100)는 얼굴 질감 특징 정보에 따라서, 기계 학습 알고리즘에 기초하여, 얼굴 표정 및/또는 얼굴 피부색 및/또는 연령 및/또는 성별을 결정한다.

도 6은 얼굴 표정 정보, 연령 정보, 성별 정보 및 피부색 정보를 식별하는 예시도이다.

얼굴 정상화 및 조명 정상화가, Gabor, SIFT, LBP와 HOG를 포함하나 그에 한정되지 않는 얼굴 질감 특징을 추출하기 위해, 도 4에 도시된 바와 같이 얼굴 윈도우 검출에 의해 얻어진 얼굴 검출 윈도우 정보(601) 및 도 5에 도시된 바와 같이 얼굴 기관의 특징점을 찾는 방법에 의해 추출된 얼굴 기관의 특징(602)에 따라 수행된다.

얼굴 질감 특징 정보에 따라, SVM, DeepLearning, 선형 회귀 또는 다른 방법과 같은 기계 학습 알고리즘에 기초하여 트레이닝함으로써, 얼굴 표정, 연령, 성별과 얼굴 피부색(603)이 식별되고 결정된다.

얼굴 기관의 특징을 추출한 후, 디바이스(100)는 눈의 시점을 찾고 계산하여 시점 방향을 결정한다. 일예로, 우선, 미리 설정된 평균 얼굴 3D 모델 시뮬레이션이 아핀(affine) 2D 포인트를 결정하기 위하여, 얼굴 검출 윈도우에 의해 취득된 얼굴 윈도우로 매핑된다. 그 후, 얼굴 기관의 특징점의 위치 및 아핀 2D 포인트의 차이는 계산되고, 머리 포즈 각도가 기울기 하강 방법에 의해 계산되고, 시점 방향이 머리 포즈 각도와 눈으로부터 스크린까지의 거리에 따라 도 7에 도시된 바와 같은 방식으로 결정된다.

도 7은 시점을 산출하는 예시도이다. 도 7에 도시된 직각 삼각형에서, 머리의 회전 각도가 θ 이고, 거리a가 한 사람으로부터 스크린까지의 거리인 것으로 알려져 있고, 거리b는 스크린의 시점으로부터 스크린 중앙까지의 거리에 놓이도록 계산된다. 머리의 회전 각도 θ 는 수평 각도와 수직 각도로 구분된다. 직각 삼각형에 따라, x 방향으로 스크린의 중심에서 두 개의 각도 오프셋 및 y 방향으로의 오프셋이 각각 계산될 수 있으며, 마지막으로, x 방향 및 y 방향 모두에서 오프셋 거리는 하나의 점으로 구성된다. 이 점이 시점(viewpoint)이다. 한 사람으로부터 스크린까지의 거리의 계산을 위하여, 여러 사람의 얼굴이 상이한 미리 설정된 거리, 예를 들면, 25 cm, 50 cm, ..., 1,500 cm 등에서 촬영될 수 있고, 다른 거리에서 얻어진 얼굴의 평균 크기가 계산된다. 사람이 광고를 시청하는 경우, 그 사람으로부터 스크린까지의 거리가 현재 얼굴의 크기, 얼굴의 평균 크기 및 대응 거리 관계에 따라 계산될 수 있다.

도 8은 얼굴 장신구(furnishings)를 검출하는 예시도이다. 얼굴 기관의 특징을 추출한 후에, 단계 810에서, 디바이스(100)는 얼굴 기관의 특징에 대해 얼굴 장신구 검출을 수행하여 얼굴 장신구 정보를 결정한다. 일예에서, 안경 검출이 눈 영역에 대해 수행되고, 이어 스터드 검출이 귀 부분에 대해 실시되고, 마스크 검출이 입에 대해 수행될 수 있다.

얼굴 기관 근처 장신구 영역의 이미지 샘플 및 얼굴 기관 근처 장신구 없는 영역의 이미지 샘플은 질감 특징 추출을 위해 수집되고, 그 다음 이미지 샘플들은 모델링을 위한 학습을 수행하기 위해 기계 학습 프레임으로 전송된다. 장신구 검출은 학습에 의해 얻어진 모델을 사용하여 수행된다. 장신구가 있는 경우, 장신구의 프로파일의 찾기가 얼굴 장신구 정보를 결정하기 위해 수행된다.

단계 820에서, 디바이스(100)는 장신구 형상의 윤곽을 식별한다.

단계 830에서, 디바이스(100)는 장신구의 유형을 결정한다.

도 9는 신체 윈도우 검출의 예시도이다. 디바이스(100)는 영상에 따라 신체 검출에 의해 적어도 두 시청자들의 신체 정보를 추출한다. 적어도 두 시청자들의 신체 정보는 신체의 수, 신체 부위의 특징, 신체의 행동, 헤어 스타일, 드레싱, 신체 모양, 및 동반 물품 (accompanying article) 중 적어도 하나를 포함한다.

구체적으로, 디바이스(100)는 가시광선 영상 및 깊이 정보에 따라 신체 검출 윈도우 정보를 취득하기 위하여 신체 윈도우 검출을 수행하고, 신체 검출 윈도우의 수에 따라 신체의 수를 결정한다. 일 예에서, 가시광선 영상 및 영상 깊이 정보에 따라, 신체 검출은 HOG (Histogram of Gradient; 구배의 히스토그램)과 DPM (Deformable Part Model; 변형 가능한 파트 모델)에 의해 실시간으로 수행될 수 있다.

가시광선 영상 및 이미지의 깊이 정보에 따라, 신체 윈도우 검출이 신체 검출 윈도우 정보를 획득하기 위하여 도 9에 도시된 방식으로 수행된다. 적어도 두 시청자들 사이의 좌우 거리는 적어도 두 시청자들의 신체 검출 윈도우들 사이의 이격 거리를 계산함으로써 결정된다. 구체적인 계산 과정은 다음과 같다. 이미지의 화소와 실제 거리 사이의 비례 관계에 기초하여, 두 시청자들의 실제 좌우 거리는 가시광선 영상으로 나타낸 두 시청자들의 신체 검출 상자 사이의 화소들의 공간에 따라 계산되고 판단된다.

검출 과정은 도 9에 도시된 바와 같다. 디바이스(100)는 이미지 및 깊이 정보를 이용하여 신체에 속하지 않는 배경 이미지를 필터링하고, 일반 객체 검출에 의해 윤곽선의 경계가 없는 객체를 필터링한다.

단계 910에서, HOG 특징 이미지들은 필터링된 이미지에서 취득된다.

단계 920에서, 탐색 윈도우 피라미드는 일정한 비율로 설정되고, DPM 모델 및 윈도우 내의 HOG 특징 이미지 응답은 별도로 HOG 특징 이미지를 검색함으로써 계산된다.

단계 930에서, 계산 결과가 제2 트레이닝 임계값보다 큰 경우, 신체 검출 윈도우 정보는 DPM 모델의 유형에 따라 출력된다.

단계 940에서, 신체의 수는 신체 검출 윈도우의 개수에 따라 결정된다.

도 10은 신체 부분의 위치를 식별하는 예시도이다.

단계 1010에서, 디바이스(100)는 신체 부위의 특징 정보를 추출하기 위하여 신체 검출 윈도우 정보에 따라 신체 부위를 찾는다. 먼저, 머리, 어깨, 몸통이나 다른 신체 부위의 대략적인 위치는 DPM (변형 가능한 파트 모델)에 따라 인식된다.

단계 1020에서, 신체 부위의 위치를 취득할 수 있도록 정확한 찾기를 실현할 목적으로 학습에 의해 얻어진 SDM (supervised Descent Method) 모델을 사용함으로써 반복 수행함으로써, 신체 부위의 위치가 연속적으로 갱신된다. 신체 부위의 SDM 모델은 서로 다른 크기의 평균 정상화 형상을 이용하여 훈련된다. 예를 들면, 머리의 경우, 평균 정상화 형상 크기는 32*32 이고 종아리(crus)의 경우 평균 정규화 형상 크기는 60*10이다.

단계 1030에서, 디바이스(100)는 단계 910, 920을 통해 신체 부위의 윤곽점을 획득한다.

도 11은 신체의 동작 정보의 예시도이다. 디바이스(100)는 신체 부위의 특징 정보(1110)와 깊이 정보(1120)에 기초하여 동작 식별에 의한 신체의 동작 정보(1140)를 식별한다. 도 11에 도시된 바와 같이 신체 부위를 찾는 방식으로 결정된 신체 부위의 특징 정보와 깊이 정보에 따라, 손을 잡고, 어깨를 껴안고, 포옹 등을 포함하는 신체의 동작은 동작 식별 모델(1130)로 식별된다.

도 12는 헤어 스타일 정보, 드레싱 정보 및 체형 정보를 식별하는 예시도이다. 디바이스(100)는 헤어 스타일, 드레싱, 체형 등(1230)을 결정하도록, 신체 부위, 및 얼굴 피부색에 따라, 헤어 스타일, 드레싱, 체형 등(1230)을 식별한다.

신체 부위의 특징 정보(1220)에 따라 그리고 피부색 모델(1210)을 이용하여, 찾은 부분은 GraphicCut 기술에 의해 절단되고, 절단 영역의 질감 정보 및 형상 정보가 추출되며, 기계 학습에 의해 결정된 모델을 사용하여, 헤어 스타일, 드레싱, 체형 등(1230)이 식별되고 및 결정된다.

디바이스(100)는 동반 물품 (accompanying article) 정보를 결정하도록 신체 검출 윈도우 근처의 소정 영역 내 동반 물품을 검출한다. 동반 물품은 애완 동물, 가방, 책, 이동 통신 장비 및 다른 동반 물품 등을 포함한다.

도 13은 동반 물품 정보를 식별하는 예시도이다. 손에 가까운 영역은 DPM 알고리즘에 의해 검출되고, 동반 물품(1310)은 미리 애완 동물, 가방, 휴대폰, 태블릿 컴퓨터 등을 식별하기 위해 분류된다. 예를 들어, 애완 동물의 종류, 가방의 색상과 같은 손 영역에 위치한 동반 물품(1310)은 DeepLearning 같은 기계 학습 알고리즘에 의해 식별된다. 디바이스(100)는 손 영역(1310)에 위치한 객체를 검출하고, 객체의 형상을 통해 객체가 어떠한 동반 물품인지를 판단한다.

디바이스(100)는 이미지 정보로부터, 상기 적어도 두 시청자들의 생리학적 특징 정보를 추출한다. 상기 적어도 두 시청자들의 생리적 특징 정보는 다음과 같이 체온 정보를 포함한다. 디바이스(100)는 얼굴 피부색 영역 및 신체 특징 정보에 따라 신체 피부색 영역을 결정하고, 얼굴 피부색 영역과 신체 피부색 영역과 조합하여 적외선 영상 정보에 따라 피부색 영역의 적외선 영상 정보를 추출하고, 및 적외선 영상 그레이 정보에 따라 선형 회귀에 의해 체온 정보를 결정한다.

도 14는 체온 정보를 식별하는 예시도이다. 얼굴 장신구로서의 안경과 마스크의 검출 결과와 함께, 얼굴 검출(1410)에 의해 결정된 얼굴 검출 윈도우 정보 및 신체 검출(1420)에 의해 결정된 신체 검출 윈도우 정보에 따라, 민낯 얼굴 피부색 영역과 신체 피부색 영역은 피부색 모델을 이용하여 검출된다. 피부색 영역의 적외선 영상 그레이 정보를 추출하기 위하여 대응 입력 적외선 영상 영역이 검색되고, 피부색 영역의 체온 정보는 선형 회귀에 의해 계산된다. 적외선 영상의 컬러가 짙을수록 더욱 높은 온도가 되고, 적외선 영상의 컬러가 옅을수록 온도는 낮은 온도가 된다. 예를 들어, 적색 영역은 일반적으로 사람의 체온, 예를 들면 약 37℃를 나타내고, 노란색 영역은 약 20-28℃에 있고, 그리고 청색 영역은 약 5-19℃에 있다. 선형 회귀는 피부 영역의 모든 색상 값에 대응하는 온도 값을 산출하기 위한 통계 모델이다. 온도 값은 주로 통계에 기초하여 어느 영역에 분포되는지를 결정함으로써, 체온 값은 온도의 주 분포 영역에 따라 결정된다. 바람직하게는 입의 형상 및 음성 정보에 따라 신체가 발열, 인플루엔자 또는 다른 증상에 있는 지의 여부가 판단될 수 있다.

단계 1430에서, 디바이스(100)는 계산된 체온 정보를 출력한다.

도 15는 음성 정보를 식별하는 예시도이다. 디바이스(100)는 사운드로부터 적어도 두 시청자들의 음성 특징 정보를 추출한다. 적어도 두 시청자들의 음성 특징 정보는 언어의 종류, 음성의 콘텐츠 및 음성 소스를 포함한다.

디바이스(100)는 음성 정보, 음향 특징 정보와 스펙트럼 정보를 추출하고, 음성 정보의 언어의 제1 레벨(first-level) 유형을 결정하기 위해 기계 학습 알고리즘에 의해 음향 특징 정보와 스펙트럼 특징 정보를 식별한다. 음성 정보의 언어의 제1 레벨 유형이 결정되면, 디바이스(100)는 언어의 제1 레벨 유형에 기초하여 음성 정보의 이차 분류 및 식별을 수행하여, 음성 정보의 언어의 제2 레벨의 유형을 결정한다. 언어의 제2 레벨의 유형은 언어의 최상위 레벨 유형에 속한다. 구체적으로, 음성 정보에 따라 신체 간의 통신을 위한 언어의 종류의 식별 과정은 도 15에 도시 된 바와 같다.

단계 1510에서, 음성의 음향 특징과 스펙트럼 특징은 음성에 따라 추출된다.

단계 1520에서, 특징 길이는 GMM (Gaussian Mixture Model; 가우시안 혼합 모델)을 사용하여 정규화된다.

단계 1530에서, 언어의 종류는 (예컨대 SVM, DeepLearning과 같이) 기계 학습 알고리즘에 의해 식별되고, 언어의 종류 식별 유형은 더욱 세분화되어 식별된다. 예를 들어, 언어의 종류가 영어인 경우, 이는 영국 영어와 미국 영어로 세분되어 식별된다. 언어의 종류가 중국어인 경우, 만다린, 방언 등으로 세분화되어 식별된다.

디바이스(100)는 음성 식별 기술에 의한 음성 내 음성의 콘텐츠를 식별한다. 구체적으로는, HMM, DeepLearning과 같은 음성 식별 기술을 이용하여, 음성의 콘텐츠는 식별되고 음성의 콘텐츠의 키 정보가 추출된다.

디바이스(100)는 영상으로부터 얼굴 기관의 특징을 추출하고, 얼굴 기관의 특징에 포함되는 입 형상의 특징 정보와 함께, 언어의 종류와 음성의 내용에 따라 입 모양 매칭에 의하여 음성 정보의 음성 소스를 찾는다. 구체적으로, 음성의 소스를 찾는 특정 방식은 도 16에 도시된 바와 같다.

단계 1610에서, 입 모양이 도 5에 도시한 바와 같이 얼굴 입 기관의 특징점을 찾는 방식으로 결정된다.

단계 1620에서, 음성의 언어 종류와 음성의 콘텐츠는 도 15에 도시된 바와 같이, 음성 식별 방식으로 DeepLearning 의해 식별된다.

단계 1630에서, 디바이스(100)는 언어의 종류, 음성의 콘텐츠 및 입 모양과 함께, 입 모양 매칭에 의하여 음성 소스를 찾는다.

도 17은 연관 정보를 결정하는 예시도이다. 디바이스(100)는 신체 특징 정보, 음성 특징 정보 또는 생리적 특징 정보의 하나 또는 그 이상에 의한 특징-관련 대응 리스트의 정합을 수행함으로써 신체 간의 연관 정보를 결정한다.

연관 정보는 사회적 관계 정보 및 인물 일반성 정보를 포함한다. 사회적 관계 정보는 가족, 친구 및 동료를 포함하며, "가족"은 부모 및 자녀 또는 조부모 및 조손을 포함하고, "친구"는 연인 또는 일반 친구를 포함하고, "동료"는 동급 직원(peers) 또는 상사 및 부하 직원을 포함한다.

인물 일반성 정보는 성별, 나이, 피부색, 헤어 스타일, 드레싱, 체형, 얼굴 장신구 및 동반 물품을 포함한다. 일 실시예에서, 특징-관련 대응 리스트는 신체 특징 정보, 음성 특징 정보와 생리적 특징 정보 중 하나 또는 그 이상의 조합에 대응하는 신체 사이의 연관 정보를 포함한다. 예를 들어, 두 사람의 나이가 20-30 세이고, 하나는 남성이고 다른 하나는 여성이고, 두 사람 사이의 좌우 거리가 100cm의 소정의 좌우 거리 임계값보다 작고, 동작이 손들을 잡고 있다면, 대응적으로 두 사람이 연인이라고 생각된다. 또 다른 예를 들어, 두 사람의 나이와 성별은 중년 여자와 소녀이고 그 두 사람의 동작은 손들을 잡고 있는 것이라면, 대응적으로 두 사람은 어머니와 딸인 것으로 생각된다. 또 다른 예를 들어, 두 사람의 나이와 성별은 그들이 노인과 소년이고 그 두 사람의 동작은 손들을 잡고 있는 것이라면, 대응적으로 두 사람은 조부모와 조손인 것으로 간주된다.

일예로서, 도 17에 도시한 바와 같이, 우선 인접한 두 사람들의 얼굴 검출 윈도우와 신체 검출 윈도우의 전후 거리 및 좌우 거리는 이미지 정보, 도 4에 도시된 얼굴 윈도우 검출 방식과 도 9에 도시된 신체 윈도우 검출 방식으로 얻어진 얼굴 검출 윈도우와 신체 검출 윈도우의 위치들, 얼굴들의 수 및 신체들의 수에 따라 계산된다.

단계 1710에서, 디바이스(100)는 사람들 사이의 거리를 판단한다. 사람들 사이의 거리를 계산하는 과정은 다음과 같다. 두 사람들의 각각으로부터의 디스플레이 장치(110)까지의 거리 간의 차이는 깊이 정보에 따라 계산되며, 그 차이가 두 사람들의 전후 거리가 된다. 좌우 거리의 계산 과정은 다음과 같다. 이미지 픽셀과 센티미터 사이의 소정의 비례 관계에 기초하여, 센티미터 단위의 두 사람의 실제의 좌우 거리는 가시광선 영상으로 나타낸 두 사람들의 신체 검출 상자들 사이의 화소의 공간에 따라 계산 및 결정된다. 이미지 정보에 따라 취득된 두 사람들 사이의 전후 거리가 100 cm의 소정의 전후 거리 임계값 미만인 80 cm 이고, 좌우 거리가 100 cm의 소정의 좌우 거리 임계값 미만인 70 cm이면, 두 사람들의 관계가 친밀한 관계에 속한, 두 사람들의 사회적 관계 정보인 것으로 결정된다. 또한, 도 10에 나타내는 바와 같이 신체 부위의 위치 찾기는 두 사람들의 신체 부위에 대한 위치 정보를 결정하기 위하여 두 사람들에게 수행된다. 어깨를 포옹하는 것과 같은 두 사람들의 행동 정보를 결정하기 위하여, 도 10에 도시된 바와 같은 방식으로 두 사람의 신체 부위에 관한 위치 정보를 식별하게 된다. 이어서, 도 6에 도시된 방법에 의해 취득된 얼굴 표정, 나이, 성별 및 피부색과 함께, 두 사람의 사회적 관계가 결정된다. 예를 들어, 두 사람들의 성별이 한 사람은 남성이고 다른 한 사람은 여성으로 나타나고, 연령은 10 세 초과이지만 40 세 미만이며, 행위는 포옹이라면, 두 사람들의 사회적 관계는 연인 관계로 판단된다.

일 실시예에서, 하나 또는 그 이상의 신체 특징 정보, 음성 특징 정보와 생리 특징 정보 사이의 연관 정보를 결정함으로써, 즉 다양한 시점에서 많은 사람들 간의 연관 정보를 결정함으로써, 연관 정보를 결정하는 정확성을 크게 향상되고, 많은 사람들에게 적응되는 광고를 푸쉬 알림 (푸싱)하는 것이 강하게 보장된다.

두 사람들 사이의 관계가 결정된 후, 3명의 사람들 이상의 인접한 시청자들이 있는 경우, 많은 사람들과의 관계를 결정하기 위해 그 연관은 전송되고 병합된다. 또 다른 예를 들어, 한 사람이 각각 인접한 두 사람과 연관을 가지고 있다고 판단되는 경우, 한 아이가 두 사람의 인접한 성인 남성과 성인 여성과 아버지-자식 관계 및 어머니-자식 관계를 가지고 있는 경우, 그 아이 외에 두 성인은 부부인 것으로 판단할 수 있다. 즉, 아버지-자식 관계 및 어머니-자식 관계는 세 사람의 한 가족으로 통합할 수 있다.

도 18은 융합된 광고 영상을 생성하는 예시도이다.

단계 1810에서, 디바이스(100)는 적어도 두 시청자들의 사회적 클래스를 결정하기 위해 신체 특징 정보, 음성 특징 정보와 생리 특징에 따라 클래스 식별을 수행한다. 구체적으로, 디바이스(100)는 적어도 두 시청자들의 사회적 클래스를 결정하기 위해 결정된 얼굴 기관, 얼굴 기관 근처의 장신구, 의상, 동반 물품, 음성 등에 따라 클래스 식별을 수행한다. 소셜 클래스는 주로 블루 칼라 클래스, 화이트 칼라 클래스와 골드 칼라 클래스를 포함한다.

여러 그룹의 연관성을 추출할 때, 디바이스(100)는 소정의 선택 규칙에 기초하여 바람직한 연관성을 선택한다. 바람직한 연관성은 다음과 같은 소정의 선택 규칙들 중 하나 이상에 기초하여 선택된다.

1. 연관된 여러 그룹 중에 사회적 관계를 선택

2. 연관된 여러 그룹 중에 최대 사람 수를 포함하는 연관성을 선택

3. 연관된 여러 그룹 중 소정 소셜 클래스에 속하는 적어도 두 사람들 사이의 연관성을 선택

4. 연관된 다수의 그룹 중 디스플레이 장치(110)에 가장 가까운 적어도 두 사람 사이의 연관성을 선택

선택적으로, 소정의 선택 규칙들은 서로 다른 가중치를 가질 수 있다. 가장 높은 가중치를 갖는 선택 규칙은 선택 규칙으로서 사용된다.

예를 들어, 두 사람들이 연관된 다수의 그룹 중 사회적 관계가 두 사람들이 연인임을 나타내고, 인물 일반 정보들이 보통 체격(medium build)임을 나타내고, 20-30 세임을 보여줄 때, "연인"이 두 사람의 연관성으로서 선택된다. 스크린 앞에 한 그룹이 총 두 명의 "연인"이고, 세 그룹의 "패밀리"로 총 6 명이 있다면, 최대 수의 사람과 관련되는 연관성, 즉 "패밀리"가 연관성으로서 선택된다. 열 스크린 앞에 10 사람과 그 10 사람 중 두 명이 디스플레이 장치(110)에 가장 가까운 연인인 경우, "연인"이 바람직하게 선택된다. "연인"의 두 그룹과 "가족"의 두 그룹이 있는 경우, 4 명을 포함하여 각 그룹은 골드 칼라 클래스 4 명을 가진 "가족"을 선택한다.

단계 1820에서, 디바이스(100)는 관련된 정보에 따라, 연관 정보에 대응하는 광고를 자동으로 선택한다. 구체적으로는, 디바이스(100)는 관계 정보에 대응하는 광고의 유형을 판별하기 위하여 관계 정보에 따라 관계 대응 리스트에 매치 쿼리(match query)를 수행하고, 광고의 유형에 따라 광고 라이브러리로부터 광고를 추출한다. 일 예로, 디바이스(100)는 결혼식 광고 같은 광고의 해당 유형을 결정하기 위하여 "연인"에 있어서의 관계 대응 리스트에 매치 쿼리를 수행하고, 결혼식 광고에 따라 광고 라이브러리로부터 신혼 여행에 대한 광고를 추출한다. 또 다른 예에서, 디바이스(100)가 "유아 및 산모"에 대한 광고 등의 광고에 대응하는 유형을 결정하기 위하여 "유아 및 산모"에 따른 관계 대응 리스트에 매치 쿼리를 수행하고, "유아 및 산모"에 대한 광고에 따라 광고 라이브러리로부터 종이 기저귀의 광고를 추출한다. 또 다른 예에서, 디바이스(100)는 광고의 해당 유형이 화장품에 대한 광고를 포함하는 것을 결정하기 위하여, 인물 일반성 "여자"에 따라 관계 대응 리스트에 매치 쿼리를 수행하고, 화장품에 대한 광고에 따라 광고 라이브러리로부터 얼굴 마스크의 광고를 추출한다.

디바이스(100)는 연관 정보에 따라 및 현재 시간 정보와 함께 연관 정보에 대응하는 광고를 선택한다. 일 예에서, 현재 시간이 소정의 식사 시간, 예를 들어, 정오 12:00시인 경우, 디바이스(100)는 "연인"에 따라 서양식 레스토랑에 대한 광고를 선택하고, 그리고 "가족"에 따라 특별한 부모-자식 레스토랑에 대한 광고를 선택한다.

단계 1830에서, 디바이스(100)는 연관 정보에 대응하는 광고를 자동으로 선택한 후, 선택된 광고에서 적어도 두 사람들의 신체의 캐릭터 역할을 결정하기 위해 연관 정보에 따라 선택된 광고에 역할 매칭(정합)을 수행하고, 융합된 광고를 취득하기 위하여 인물 역할을 가지는 선택된 광고를 융합한다.

단계 1840에서, 디바이스(100)는 3 차원 모델링에 의해 적어도 두 명의 3 차원 얼굴/신체 모델을 확립(establish)한다.

디바이스(100)는 음성 정보로부터 적어도 두 명의 톤(음조) 정보를 추출하고, 음성 합성에 의해 선택된 광고의 재건된 음성 정보를 합성한다. 얼굴 기관의 특징이 이미지 정보로부터 추출된다. 음성 정보의 음성의 소스는 언어의 종류와 음성의 콘텐츠 및 얼굴 기관의 특징에 포함되는 입 형상의 특징과의 조합에 따라 일치하는 입 모양에 의하여 찾아진다. 그리고, 음성의 주파수 및 톤은 찾아진 사람의 음성 정보에서 검출된다. 그런 다음 음성의 유형을 형성하도록 사전 훈련 모델과 일치하고, 그런 다음 인간의 음성은 음성 입력을 이용하여 시뮬레이션된다. 디바이스(100)는 융합 광고를 취득하기 위하여 3 차원 얼굴/신체 모델, 재 확립된 음성 정보, 및 선택된 광고를 융합한다.

단계 1850에서, 배경 절단(커팅)은 신체 식별과 신체의 신체 부분의 위치뿐만 아니라, 얼굴 인식, 얼굴 기관 위치에 따른 그래프컷(graphcut) 알고리즘에 의해 수행된다.

3D 이미지 모델링은 헤드 포즈 추정 및 RBF 변환에 의해 수행된다. 예를 들어, 실시간 얼굴 영역 검출은 PLAB(Random Local Assemble Blocks; 랜덤 로컬 조립 블록)와 아다부스트(Adaboost)를 사용하여 수행되고, 얼굴 기관 특징 찾기는 SDM에 의해 수행되고, 단일 얼굴 이미지를 모델링하는 것은 헤드 포즈 추정 및 RBF 변환에 의해 수행된다. 그리고, 신체 상자들은 HOG (Histogram of Gradient; 구배 히스토그램)와 DPM (Deformable Part Model; 변형 가능한 부위 모델)에 의해 결정되고, 신체 절단은 그래프컷(graphcut)에 의해 추가 수행되며, 신체 영역 이미지는 3 차원 모델로 매핑된다.

3차원 신체 모델은 균일한 소정 모델(uniform preset model)이다. 절단된 신체 영역 이미지는 유사한 결과를 달성하기 위해 3 차원 모형에 텍스처 매핑된다(texture-mapped). 음성 정보로부터 추출된 적어도 두 사람들의 음성 정보는 선택된 광고의 재설정된 음성 정보로 합성된다. 한편, 선택된 광고의 내용 및 장면에 기초하여, 설정된 모델, 재설정된 음성 정보 및 광고 장면은 문자-융합된 광고를 취득하기 위하여 융합된다.

일 예로서, 도 18에 도시된 바와 같이, 디바이스(100)는 사람들의 행동 정보, 성별 정보, 연령 정보 등과 같은 디스플레이 장치 앞의 두 사람들의 특징 정보를 수집하고, 두 사람들 사이의 연관 정보를 특징 정보에 따라 "연인"으로 결정한다. 디바이스(100)는 소정 광고 선택 전략을 기반으로, 관광 상품 "몰디브의 로맨틱 여행"의 광고를 두 사람의 관계인 "연인"과 사회 계급과 조합에 따라 선택한다. 광고의 역할은 관계인 "연인"에 따라 선택되고, 음성 인식 기술에 의해 두 사람의 음색(tone)을 모방하여 광고 안에 캐릭터 음성 정보가 생성되고, 두 사람의 가상 모델 및 캐릭터 음성 정보가 얼굴 모델링 및 신체 모델링 기술에 의하여 광고 영상으로 삽입되어, 융합된 광고 영상을 생성한다.

실시예에서, 비디오 융합에 의하여 광고 푸쉬 알림 (푸싱)으로 디스플레이 장치(110) 앞의 적어도 두 시청자들의 모델을 융합시킴으로써, 동영상의 침지 효과(immersion effects)가 실현되고, 양호한 보장은 융합 광고를 재생 후 좋은 광고 푸쉬 알림 효과를 얻기 위해 제공된다. 또한, 관객은 융합 광고를 보고 난 후에 몰입 경험을 생성할 것이고, 광고에 대한 관객의 수용이 효과적으로 개선될 수 있도록, 제3자 감시자 시점으로부터 광고 콘텐츠의 참가자가 될 것이고, 광고의 푸쉬 알림 효과가 마지막으로 개선된다.

디바이스(100)는 디스플레이 장치(110) 상에 대응하는 광고를 재생한 후, 재생 광고에 적어도 두 사람들의 피드백-관련 정보를 취득한다. 디바이스(100)는 소정의 정도의 만족도 산출 방법에 기초하여, 피드백-관련 정보에 따라 광고에 대한 적어도 두 사람들의 신체의 만족도 정도를 결정한다. 디바이스(100)는 만족도를 소정의 정도의 만족도 임계값과 비교하고, 비교 결과, 만족도 정도가 소정 정도의 만족도 임계값보다 낮은 것으로 나타내는 경우에는 광고를 교체한다. 피드백-관련 정보는 시점 방향, 얼굴 표정 정보 및 음성 콘텐츠 정보를 포함한다. 만족도 정도의 계산 방법은, 세 가지 요인, 즉, 관심, 얼굴 표정, 및 관계 시간을 포함하고, 여기서 관심은 신체에 의해 감시된 제품의 이름을 결정할 수 있고, 관계 시간은 시청 시간의 길이이고, 얼굴 표정은 제품 시청할 때 시청자의 표현이다. 만족도 조회 테이블의 정도는 세 가지 요인에 기초하여 미리 설정될 수 있다. 예를 들어, 제품이 분유인 경우, 관계 시간이 10초-12초이고 표정은 미소이고, 만족도의 대응 정도는 만족도 조회 테이블의 정도를 조회하여 0.5 인 것으로 결정된다. 소정 정도의 만족도 임계값이 0.7이면 신체는 분유 광고에 불만족한 것으로 판단하고 광고를 교환할 필요가 있다.

구체적으로 소정의 정도의 만족도 산출 방법에 기초한, 도 7에 도시된 바와 같이 계산되고 결정된 적어도 두 명의 신체의 시점 정보 및 시점 체류 시간, 도 6에 도시된 바와 같이 획득된 발현 정보, 도 5에 도시한 바와 같이 취득된 음성 정보 등에 따라, 광고에 대한 시청자의 만족도가 결정된다. 만족도의 정도가 소정 정도의 만족도 임계값보다 낮은 경우, 광고는 동일한 관계 정보의 한 유형의 광고, 동일한 관계 정보에 대응하는 서로 다른 광고 유형의 광고, 또는 다른 관계 정보로 교체된다.

일 예로, 디바이스(100)는 "영유아 및 어머니"에 따른 분유 광고를 선택한다. 도 6에 도시된 바와 같이 취득된 관객의 표정 정보가 미소라면, 도 7에 도시된 방식으로 계산되어 결정되는 시점 정보는 분유 광고 내 분유의 명칭 정보이고, 스크린의 시점의 지속 기간은 소정의 체류 시간 10 초보다 큰 12초이고, 시청자의 광고에 대한 만족도 정도는 소정 정도의 만족도 임계값 0.7 보다 큰 0.8이다.

디바이스(100)는 만족도가 소정의 만족도 임계값보다 높을 때까지 시청자들의 피드백을 획득하고, 만족도를 계산하고, 만조도와 소정의 만족도 임계값을 비교하는 과정을 반복한다.

광고의 교환 횟수가 소정의 교환 임계값보다 크다고 결정되는 경우, 디바이스(100)는 적어도 두 시청자들 사이의 연관 정보를 재 추출한다. 디바이스(100)는 교체 관련된 정보에 따라 연관 정보에 대응하는 광고를 재 선택한다.

지속적으로 만족도의 정도에 따라 광고를 교환함으로써, 시청자가 관심있는 것과 가장 높은 정합도를 갖는 광고가 그 시청자에게 재생되어, 그 광고의 더 나은 푸쉬 알림 효과가 실현될 수 있다.

일 예로, 디바이스(100)는 영유아 어머니에 따른 우유 분말 광고를 선택한다. 도 7에 도시된 방식으로 계산되어 결정되는 눈의 시점 정보는 시점이 광고의 임의의 위치에 집중하지 않는 것을 표시하고, 스크린의 시점의 지속 기간은 소정의 체류 시간이 10 초 미만인 3초이고, 그때 광고에 대한 시청자의 만족도 정도는 그 소정 정도의 만족도 임계값 0.7 보다 낮은 0.1이다. 따라서, 이러한 광고는 관계 "영유아 및 어머니"와 일치하는 다른 장난감 광고로 교체될 수 있다.

도 19는 신원을 식별하는 예시도이다. 디바이스(100)는 적어도 두 시청자들의 신원을 식별한다. 디바이스(100)는 과거에 적어도 두 시청자들 중 어느 한 명에 의해 시청된 현재 재생 중인 광고의 유형의 과거 만족도 정도를 확인하기 위하여 신원 표시 정보에 따라 과거 재생 기록 정보를 조회한다. 과거 만족도 정도가 소정 정도의 만족도 임계 수준보다 낮은 것으로 결정된 경우, 디바이스(100)는 광고를 교체한다.

단계 1910에서, 디바이스(100)는 적어도 두 시청자들의 신체의 동공 조리개, 눈 주위 영역과 얼굴 전체 이미지의 텍스쳐(질감) 정보를 추출하고, 하나의 신원 ID를 갖는 추출된 텍스쳐 정보와 저장된 얼굴 텍스쳐 정보에 대해 매칭이 수행된다. 매칭이 실패하면, 그 사람이 신원 ID를 가지지 않는 것으로 결정되고, 신원 ID가 그 사람에게 배포되고, 신원 ID와 텍스쳐 정보는 대응 정보 베이스에 기록된다. 매칭이 성공하면, 쿼리는 과거에 적어도 두 명 중 어느 한 명에 의해 시청된 현재 재생 중인 광고의 유형의 과거 만족도 정도를 확인하기 위하여 신원 ID에 따른 과거 재생 기록 정보에서 수행된다. 비교 결과, 과거 만족도 정도가 소정 정도의 만족도 임계 수준보다 낮은 경우, 광고가 교체된다. 과거 재생 기록 정보는 신원 ID 정보 및 광고 유형 및 과거 재생된 광고의 과거의 만족도 정도에 대응하는 정보를 포함한다.

디바이스(100)는 과거 재생된 기록 정보를 갱신한다. 구체적으로는, 적어도 두 명 중 어느 한 명의 신원 ID 정보, 현재 그 사람에게 재생되는 광고, 및 광고에 대한 만족도 정도가 과거 재생된 기록 정보로 기입된 하나의 데이터로서 사용된다.

일 실시 예에 따른 디바이스(1000)는 수집된 데이터에 기초하여 현재 광고를 시청중인 시청자들에게 필요한 광고를 재생할 수 있다.

일 실시 예에 따른 디바이스(1000)는 시청자들의 이미지, 시청자들의 음성 등을 통해 시청자들의 관계를 추측하고, 시청자들의 관계에 따라 광고를 선택하여 재생할 수 있다.

발명의 특정 실시 예들이 도면을 참조하여 설명된 반면, 많은 변형 및 수정들이 첨부된 청구항들에서 정의된 것과 같은 발명의 범위를 벗어나는 것 없이 가능할 것으로 이해될 것이다.

본 실시 예들에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

본 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 실시 예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

본 실시 예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.

본 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 기술적 사상을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

100: 디바이스
110: 디스플레이 장치
120: 카메라
130: 마이크

Claims

디스플레이 장치에 인접한 적어도 두 시청자들의 데이터를 수집하는 단계;
상기 데이터에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하는 단계;
상기 연관 정보에 따라 상기 디스플레이 장치에 재생할 광고를 결정하는 단계; 및
상기 디스플레이 장치 상에 상기 결정된 광고를 재생하는 단계를 포함하는 광고 재생 방법.
제1항에 있어서,
상기 데이터를 수집하는 단계는 카메라 및 마이크를 통해 상기 데이터를 수집하고,
상기 카메라는 가시 광선 카메라, 깊이 카메라 및 적외선 카메라 중 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 방법.
제2항에 있어서,
상기 카메라는 상기 적어도 두 시청자들의 이미지를 촬영하고, 상기 마이크는 상기 적어도 두 시청자들의 음성을 녹음하는 것을 특징으로 하는 광고 재생 방법.
제1항에 있어서, 상기 연관 정보를 추출하는 단계는,
상기 데이터로부터 상기 두 시청자들의 신체적 특징 또는 음성 특징을 추출하는 단계를 포함하는 광고 재생 방법.
제4항에 있어서,
상기 적어도 두 시청자들의 신체적 특징은 상기 적어도 두 시청자들 사이의 거리, 상기 적어도 두 시청자들의 얼굴 특징 또는 신체 관련 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 광고 재생 방법.
제5항에 있어서,
상기 적어도 두 시청자들의 얼굴 특징은 얼굴의 수, 얼굴 기관의 특징, 얼굴 표정, 얼굴 피부색, 나이, 성별, 시점 및 얼굴 장신구 중의 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 방법.
제5항에 있어서,
상기 적어도 두 시청자들의 신체 관련 정보는 신체의 수, 신체 부위의 특징, 신체의 동작, 헤어 스타일, 드레싱, 체형 및 동반 물품 중의 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 방법.
제4항에 있어서,
상기 적어도 두 시청자들의 음성 특징은 언어의 유형, 음성의 내용 또는 음성의 소스 중의 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 방법.
제1항에 있어서,
상기 연관 정보를 추출하는 단계는 상기 적어도 두 시청자들이 가족, 친구 또는 동료 중의 어느 관계인지를 결정하는 단계를 포함하는 광고 재생 방법.
제1항에 있어서,
상기 연관 정보를 추출하는 단계는 상기 적어도 두 시청자들의 성별, 나이, 피부색, 헤어 스타일, 드레싱, 체형, 얼굴 장신구, 또는 동반 물품 중의 하나 이상의 정보를 추출하는 단계를 포함하는 광고 재생방법.
제1항에 있어서, 상기 데이터를 수집하는 단계는,
상기 디스플레이 장치 앞에 위치한 적어도 두 시청자들의 데이터를 수집하는 것을 특징으로 하는 광고 재생 방법.
제1항에 있어서,
시청자들의 인물 정보를 미리 저장하는 단계를 더 포함하고,
상기 연관 정보를 추출하는 단계는,
상기 인물 정보 중 상기 데이터와 매칭되는 인물 정보를 탐색하는 단계; 및
상기 데이터와 매칭되는 인물 정보에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하는 단계를 포함하는 것을 특징으로 하는 광고 재생 방법.
광고를 표시하는 디스플레이 장치;
상기 디스플레이 장치에 인접한 적어도 두 시청자들의 데이터를 수집하는 입력부; 및
상기 데이터에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하고, 상기 연관 정보에 따라 상기 연관 정보에 대응하는 광고를 결정하고, 상기 디스플레이 장치를 제어하여 상기 결정된 광고를 재생하는 프로세서를 포함하는 광고 재생 장치.
제13항에 있어서,
상기 입력부는 카메라 및 마이크를 포함하고, 상기 입력부는 상기 카메라 및 상기 마이크를 통해 상기 데이터를 수집하고,
상기 카메라는 가시 광선 카메라, 깊이 카메라 및 적외선 카메라 중 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 장치.
제14항에 있어서,
상기 카메라는 상기 적어도 두 시청자들의 이미지를 촬영하고, 상기 마이크는 상기 적어도 두 시청자들의 음성을 녹음하는 것을 특징으로 하는 광고 재생 장치.
제13항에 있어서,
상기 프로세서는 상기 데이터로부터 상기 두 시청자들의 신체적 특징 또는 음성 특징을 추출하고, 상기 신체적 특징 및 음성 특징에 기초하여 재생할 광고를 결정하는 것을 특징으로 하는 광고 재생 장치.
제16항에 있어서,
상기 적어도 두 시청자들의 신체적 특징은 상기 적어도 두 시청자들 사이의 거리, 상기 적어도 두 시청자들의 얼굴 특징 또는 신체 관련 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 광고 재생 장치.
제17항에 있어서,
상기 적어도 두 시청자들의 얼굴 특징은 얼굴의 수, 얼굴 기관의 특징, 얼굴 표정, 얼굴 피부색, 나이, 성별, 시점 및 얼굴 장신구 중의 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 장치.
제17항에 있어서,
상기 적어도 두 시청자들의 신체 관련 정보는 신체의 수, 신체 부위의 특징, 신체의 동작, 헤어 스타일, 드레싱, 체형 및 동반 물품 중의 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 장치.
제16항에 있어서,
상기 적어도 두 시청자들의 음성 특징은 언어의 유형, 음성의 내용 또는 음성의 소스 중의 하나 이상을 포함하는 것을 특징으로 하는 광고 재생 장치.
제13항에 있어서,
상기 프로세서는 상기 적어도 두 시청자들이 가족, 친구 또는 동료 중의 어느 관계인지에 따라 재생할 광고를 결정하는 것을 특징으로 하는 광고 재생 장치.
제13항에 있어서,
상기 프로세서는 상기 적어도 두 시청자들의 성별, 나이, 피부색, 헤어 스타일, 드레싱, 체형, 얼굴 장신구, 또는 동반 물품 중의 하나 이상의 정보를 추출하여 상기 추출된 하나 이상의 정보에 기초하여 재생할 광고를 결정하는 것을 특징으로 하는 광고 재생 장치.
제13항에 있어서,
상기 입력부는 상기 디스플레이 장치 앞에 위치한 적어도 두 시청자들의 데이터를 수집하는 것을 특징으로 하는 광고 재생 장치.
제13항에 있어서,
시청자들의 인물 정보를 미리 저장하는 메모리를 더 포함하고,
상기 프로세서는 상기 인물 정보 중 상기 데이터와 매칭되는 인물 정보를 탐색하고, 상기 데이터와 매칭되는 인물 정보에 기초하여 상기 적어도 두 시청자들 간의 연관 정보를 추출하는 것을 특징으로 하는 광고 재생 장치.
제1항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.