KR20050024401A

KR20050024401A - 시각 및 음성 인식을 통한 컨텐트 등급의 측정

Info

Publication number: KR20050024401A
Application number: KR10-2004-7021261A
Authority: KR
Inventors: 스리니바스 구타; 안토니오 콜메나레즈; 미로슬라브 트라지코비치
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-06-27
Filing date: 2003-06-13
Publication date: 2005-03-10

Abstract

본 발명은 일반적으로 시각 및 음성 인식에 관한 것으로, 더 구체적으로, 시각 및/또는 음성 인식을 통해 고객 만족을 측정하는 방법 및 디바이스에 관한 것이다. 서비스, 제품, 콘텐트(104) 중 적어도 하나에 대한 고객 만족을 측정하는 방법은, 고객(108a)에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하는 단계와, 상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대해, (a) 상기 고객(108a)의 응시의 검출과, (b) 상기 고객(108a)의 얼굴 표정의 검출과, (c) 상기 고객(108a)의 감정의 검출과, (d) 상기 고객(108a)의 음성의 검출과, (e) 상기 고객(108a)의 대화의 검출 중 적어도 하나에 대한 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하는 단계와, 상기 (a) 내지 (e) 단계 중 적어도 하나에 기초하여 고객 만족을 결정하는 단계를 포함한다.

Description

시각 및 음성 인식을 통한 컨텐트 등급의 측정{MEASUREMENT OF CONTENT RATINGS THROUGH VISION AND SPEECH RECOGNITION}

본 발명은 일반적으로 시각 및 음성 인식에 관한 것으로, 더 구체적으로, 시각 및/또는 음성 인식을 통해 고객 만족을 측정하는 방법 및 디바이스에 관한 것이다.

종래 기술에서, 고객에 의해 디스플레이된 제품, 서비스, 또는 콘텐트(본 명세서에서 집합적으로 "제품"이라 언급됨)에서의 관심을 평가하는 알려진 수가지 방법이 있다. 그러나, 알려진 모든 방법은 수동으로 수행된다. 예를 들어, 통행자가 받아서 적어 넣는 질문서 카드는 제품 근처에서 이용가능할 수 있다. 대안적으로, 상점의 판매원 또는 판매상은 고객들에게 제품에 관련된 일련의 질문을 질문함으로써 제품에 대한 고객의 관심을 간청할 수 있다. 그러나, 어느 쪽에서나, 사람은 그 질문에 기꺼이 참여해야 한다. 만약 기꺼이 참여하면, 손으로 적는(manual) 질문은 사람들이 기꺼이 소비하고자 하는 것보다 종종 훨씬 더 많은 시간이 완성하는데 걸린다. 더욱이, 손으로 적는 질문은 참여하는 사람들의 양심에 달려있다. 텔레비전 프로그래밍과 같은 콘텐트에 대해, 하나의 서비스, 즉 닐슨(Nielson)은 현재 시청하고 있는 콘텐트가 무엇이고, 누가 시청하고 있는지에 대해 자동으로 측정한다. 그러나, 그것은 개인이 그 콘텐트를 좋아하거나 싫어하는지의 여부를 자동으로 측정하지 않는다.

더욱이, 디스플레이된 제품의 제조자 및 판매인은, 종종 성별 및 인종과 같은 특성과 같이, 참여자에게 오히려 드러나지 않는 정보를 원한다. 이러한 유형의 정보는 제품을 마케팅하는데 있어서 제조자 및 판매인에게 매우 유용할 수 있다. 그러나, 제조자가, 참여자가 그러한 정보를 공급하기를 원하지 않거나 그러한 질문에 의해 기분이 상하는 것으로 인식하기 때문에, 제조자 및 판매인은 자신의 제품 질문서에 그러한 질문을 물어보지 않는다.

도 1은 본 발명의 방법을 수행하기 위한 장치의 바람직한 구현을 도시한 개략도.

도 2a 및 도 2b는 본 발명의 방법의 바람직한 구현을 도시한 흐름도.

그러므로, 본 발명의 목적은, 제품, 서비스, 또는 콘텐트의 고객 만족을 자동으로 측정하기 위한 방법 및 장치를 제공하는 것이다. 따라서, 서비스, 제품, 및 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법이 제공된다. 본 방법은, 고객에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하는 단계와; 서비스, 제품, 및 컨텐트 중 적어도 하나에 대해 (a) 고객의 응시의 검출, (b) 고객의 얼굴 표정의 검출, (c) 고객의 감정의 검출, (d) 고객의 음성의 검출, (e) 고객의 대화의 검출 중 적어도 하나에 대한 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하는 단계와; (a) 내지 (e) 단계 중 적어도 하나에 기초하여 고객 만족을 결정하는 단계를 포함한다.

바람직하게, 본 방법은 이미지 및 음성 데이터 중 적어도 하나로부터 고객의 성별, 인종, 및 나이 중 적어도 하나를 결정하는 단계를 더 포함한다. 취득은 이미지 데이터에서 고객을 식별하는 것을 포함하는 것이 바람직하다. 식별은 이미지 데이터에서 얼굴을 검출하는 것을 포함하는 것이 바람직하다. 대안적으로, 식별은 이미지 데이터에서의 대상을 사람 및 사람이 아닌 것으로 분류하는 것을 포함한다. 고객의 응시의 검출은, 검출된 응시 방향이 서비스, 제품 및 컨텐트 중 적어도 하나를 향해 있는 지에 대한 결정과, 서비스, 제품 및 컨텐트 중 적어도 하나를 향한 응시의 지속기간 중 적어도 하나를 포함하는 것이 바람직하다.

바람직하게, 고객의 얼굴 표정의 검출은, 검출된 얼굴 표정이 만족 또는 불만족 중 하나인지를 결정하는 것을 포함한다. 본 방법은, 얼굴 표정이 검출되는 시간에 고객의 응시가 서비스, 제품 및 컨텐트 중 적어도 하나를 향해 있는지의 여부를 검출하는 것을 더 포함하는 것이 바람직하며, 고객 만족의 결정은 적어도 부분적으로 이에 기초한다.

바람직하게, 고객의 감정의 검출은 고객의 음성 및 얼굴 표정 중 적어도 하나의 검출에 적어도 부분적으로 기초한다. 고객의 감정의 검출은 고객의 감정 세기를 검출하는 것을 포함하는 것이 바람직하다.

바람직하게, 감정 세기의 검출은 고객의 음성 및 얼굴 표정 중 적어도 하나의 검출에 적어도 부분적으로 기초한다. 고객의 음성의 검출은 인식된 음성의 특정 어투를 검출하는 것을 포함하는 것이 바람직하다.

바람직하게, 고객의 음성의 검출은 인식된 음성에서 감정을 검출하는 것을 포함한다.

서비스, 제품 및 컨텐트 중 적어도 하나에 대한 고객의 대화의 검출은 제품, 서비스 및 컨텐트 중 적어도 하나와의 신체적 대화를 검출하는 것을 포함하는 것이 바람직하다.

또한, 서비스, 제품 및 컨텐트 중 적어도 하나에 대한 고객 만족을 측정하는 장치가 제공된다. 이 장치는, 고객에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하기 위한 카메라 및 마이크 중 적어도 하나와; 서비스, 제품 및 컨텐트 중 적어도 하나에 대해 (a) 고객의 응시의 검출, (b) 고객의 얼굴 표정의 검출, (c) 고객의 감정의 검출, (d) 고객의 음성의 검출, (e) 고객의 대화의 검출 중 적어도 하나에 대한 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하는 수단을 갖는 프로세서를 포함하며, 상기 프로세서는 (a) 내지 (e) 단계의 적어도 하나에 기초하여 고객 만족을 결정하는 수단을 더 구비한다.

바람직하게, 프로세서는 이미지 및 음성 데이터의 적어도 하나로부터 고객의 성별, 인종, 및 나이 중 적어도 하나를 결정하는 수단을 더 포함한다. 또한, 본 발명의 방법을 수행하기 위한 컴퓨터 프로그램 제품, 및 컴퓨터 프로그램 제품의 저장을 위한 프로그램 저장 디바이스가 제공된다.

본 발명의 장치 및 방법의 이들 및 다른 특징, 양상 및 장점은 다음과 같은 설명, 첨부된 청구범위 및 첨부 도면을 참조하여 더 잘 이해될 것이다.

이제 도 1을 참조하면, 서비스, 제품 및 컨텐트 중 적어도 하나에 대한 고객 만족을 측정하는 장치가 도시되며, 상기 장치는 일반적으로 참조 번호(100)로 표시된다. 장치(100)는, 디스플레이된 제품, 서비스 또는 컨텐트(104)의 미리 결정된 영역 내에서 이미지 데이터를 캡쳐할 정도로 충분한 시야를 갖는 적어도 하나, 바람직하게는 수 개의 카메라(102)를 포함한다. 카메라라는 용어는 일반적인 의미에서 모든 이미지 캡쳐 디바이스를 의미하도록 사용된다. 카메라(102)는 디지털 비디오 카메라인 것이 바람직하지만, 아날로그 비디오 카메라, 디지털 정지 이미지 카메라 등일 수 있다. 아날로그 카메라가 사용되면, 그 출력은 디지털 포맷으로 적절히 변환되어야 한다. 카메라(102)는 고정될 수 있거나, 팬(pan), 필트(tilt), 및 줌 능력을 가질 수 있다. 상기 장치는 또한 미리 결정된 영역으로부터 음성 데이터를 캡쳐하기 위한 적어도 하나의 마이크(106)를 포함한다. 마이크(106)는 디지털 마이크인 것이 바람직하지만, 그 출력 신호가 디지털 포맷으로 적절히 변환되면 다른 유형의 마이크도 사용될 수 있다. 마이크라는 용어는 일반적인 의미에서 모든 음향 캡쳐 디바이스를 의미하도록 사용된다.

카메라(102) 및 마이크(106)는 미리 결정된 영역 내에서 고객(108a, 108b) 또는 다른 물체(109)에 대한 이미지 및 음성 데이터를 취득하는데 이용가능하다. 마이크(106) 또는 적어도 하나의 카메라(102) 중 어느 하나가 본 발명의 방법을 실행하는데 필요하더라도, 양쪽 모두 이용되는 것이 바람직하다. 본 명세서에 사용된 바와 같이, "고객"이라는 용어는 카메라(102) 및 마이크(106)의 시야/음성 범위 내에서 이미지 및/또는 음성 데이터에 검출된 임의의 사람을 지칭한다. 고객은 디스플레이된 제품, 서비스 및/또는 콘텐트에 관심을 갖거나 갖지 않을 수 있고, 미리 결정된 영역에서의 고객의 존재는 "고객"으로 분류될 정도로 충분하다. 캡쳐된 이미지 및 음성 데이터는 아래에 논의되는 방식으로 각각 각 이미지 및 음성 인식 수단(110, 112)에 의해 분석된다. 장치(100)는 또한 개인용 컴퓨터와 같은 프로세서(114)를 포함한다. 도 1에 별도의 모듈로 도시되었지만, 이미지 및 음성 인식 수단(110, 112)은 카메라(102) 및 마이크(106)로부터 입력 이미지 및 음성 데이터를 분석하는 지령 세트를 수행하기 위해 프로세서(114)에서 구현되는 것이 바람직하다. 바람직하게, 프로세서(114)는 캡쳐된 이미지 및/또는 음성 데이터로부터 고객(108a, 108b)의 성별, 인종 및 나이 중 적어도 하나를 결정하는 수단을 더 구비한다. 장치(100)는 또한 프로세서(114)에 의한 분석 결과를 출력하기 위한 출력 수단(116)을 포함한다. 출력 수단(116)은 다른 방법 또는 장치에 사용하기 위해 프린터, 모니터, 또는 전자 신호일 수 있다.

본 발명의 방법의 바람직한 구현은 이제 도 2a 및 도 2b를 참조하여 설명될 것이다. 도 2a 및 도 2는 장치(100)에 의해 바람직하게 수행될 방법의 바람직한 구현을 도시하는 흐름도를 도시하며, 본 방법은 일반적으로 참조 번호(200)로 지칭된다. 방법(200)은 서비스, 제품 및 컨텐트(집합적으로 본 명세서에서 "제품"으로 지칭됨) 중 적어도 하나에 대한 고객 만족을 측정한다. 제품은, 제품(예를 들어 소비자 제품)이 미리 결정된 영역 내에서 디스플레이되는 쇼핑 영역과 같은 공공 영역, 또는 제품(예를 들어 텔레비전 프로그램과 같은 콘텐트)이 미리 결정된 영역 내에서 시청되고 있는 개인 영역(private area)에서 디스플레이될 수 있다.

단계(202)에서, 이미지 및 음성 데이터의 적어도 하나, 바람직하게는 양쪽 모두는 카메라(102) 및/또는 마이크(106)에 의해 미리 결정된 영역에 대해 취득된다. 이미지 및/또는 음성 데이터의 취득 이후에, 고객(들)(108a, 108b)은 단계(204)에서 이미지 및/또는 음성 데이터에서 식별된다. 이미지 및 음성 데이터의 어느 하나 또는 양쪽 모두가 미리 결정된 영역에서 고객(들)을 식별하는데 이용될 수 있더라도, 이미지 데이터에서 인간을 인식하기 위한 종래 기술의 알려진 임의의 방법을 이용하여 이미지 데이터가 이용되는 것이 바람직하다.

그러한 한가지 방법은, 얼굴이 이미지 데이터에서 검출되고 각 얼굴이 사람과 연관되는 것이다. 일단 얼굴이 발견되면, 인간이 존재한다고 틀림없이 간주될 수 있다. 얼굴의 검출에 의한 이미지 데이터에서의 사람 인식의 일례는, 구타(Gutta) 등의, Mixture of Experts for Classification of Gender, ethnic, Origin, and Pose of Human Faces(2000년 7월, 뉴런 네트워크에 대한 IEEE 회보, 제 11권, 4호)에 기재되어 있다.

다른 방법은 이미지 데이테에서의 물체를 사람 및 사람이 아닌 것으로서 분류하는 것이다. 예를 들어, 도 1에서의 사람(108a, 108b)은 고객으로서 분류되는 반면, 개(109)는 사람이 아닌 것으로 분류되어, 분석을 위해 폐기된다. 그러한 시스템의 일례는, 구타 등의, 모델 앙상블을 통한 물체의 분류라는 제목으로 2001년 2월 27일에 출원된 공동 계류중인 미국 특허 출원 제 09/794,443호에 기재되어 있다.

일단 인간이 존재한다고 결정되면, 성별, 인종의 기원, 얼굴 포즈, 얼굴 표정 등과 같은 다른 특징이 결정될 수 있다. 아래에 논의되는 바와 같이, 이러한 특징은 디스플레이된 제품에 대한 고객의 관심의 측정을 결정하는데 사용될 수 있다. 사람의 성별 및 인종 기원을 추정하는 방법은, 구타 등의, Mixture of Experts for Classification of Gender, ethnic, Origin, and Pose of Human Faces(2000년 7월, 뉴런 네트워크에 대한 IEEE 회보, 제 11권, 4호)에 기재되어 있는 것과 같은 기술에서 잘 알려져 있다.

이미지 및/또는 음성 데이터의 분석에 의해 결정될 수 있는 몇몇 특징의 예는, 제품에 대해 고객(108a, 108b)의 응시의 검출; 고객(108a, 108b)의 얼굴 표정의 검출; 고객(108a, 108b)의 감정의 검출; 고객(108a, 108b)의 음성의 검출; 고객(108a, 108b)의 대화의 검출이며, 이중 하나 이상은 제품에서 고객의 관심/만족을 측정하는데 이용될 수 있다.

고객(들)(108a, 108b)의 응시의 검출에 관해, 이것은 단계(206)에서 수행되는 것이 바람직하다. 단계(208)에서, 검출된 응시가 제품(104)을 향해 있는 지가 결정되는 것이 바람직하다. 예를 들어, 도 1에서의 고객(108a)의 응시가 제품(104)을 향해 있는 것으로 분류되는 반면, 고객(108b)의 응시는 제품(104)으로부터 다른 방향을 향해 있는 것으로 분류된다. 검출된 고객(108b)의 응시가 제품(104)으로부터 다른 방향을 향해 있다고 발견되면, 방법(200)은 경로(208-NO)를 따라 진행하고, 고객(108b)은 자신이 제품(104)에 명백히 관심이 없다는 점을 제외하고 분석에 사용되지 않고, 방법은, 고객이 이미지 데이터에서 계속해서 식별되는 단계(204)로 되돌아간다. 고객(108a)의 응시가 제품(104)을 향해 있는 것으로 발견되면, 방법은, 고객(108a)에 대한 다른 특징이 검출되는 경로(208-YES)를 따라 계속된다.

응시의 검출과 함께, 응시의 지속기간, 특히 제품을 향한 응시의 지속기간은 또한 이미지 데이터로부터 검출될 수 있다. 제품을 향한 응시의 지속기간은 제품에 대한 관심을 나타낸다고 간주될 수 있다. 이미지 데이터에서 응시를 검출하는 방법은, 릭케르트(Rickert) 등의, Gaze Estimation using Morphable Models(1998년 4월 14-16일, 일본, 나라, 자동 얼굴 및 제스춰 인식에 대한 제 3회 국제 회의 회보)에 기재된 것과 같은 기술에 잘 알려져 있다.

고객의 얼굴 표정의 검출에 관해, 이것은 단지 제품(104)을 향해 응시하는 것으로 발견된 고객(108a)에 대해서만 단계(210)에서 수행되는 것이 바람직하다. 바람직하게, 고객(108a)의 얼굴 표정의 검출은, 검출된 얼굴 표정이 만족 또는 불만족 중 하나인지를 결정하는 것을 포함한다. 예를 들어, 웃음 또는 상기된 표정의 검출은 만족을 나타내는 반면, 눈살을 찌푸리거나 난처한 표정의 검출은 불만족을 나타낸다. 얼굴 표정을 검출하는 방법은, 콜메나레즈(Colmenarez) 등의, Modeling the Dynamics of Facial Expressions(2001년, 12월 10-15일, 미국, 하와이, 컴퓨티 비전 및 패턴 인식에 대한 국제 회의와 연계하여 열린 CUES 워크샵)에 기재된 것과 같은 기술에 잘 알려져 있다.

음성 검출에 대해, 단계(212)에서 수행되는 것이 바람직하고, 미리 결정된 영역에서 고객(108a, 108b)을 식별할 뿐 아니라 제품에 대한 고객의 만족의 측정을 결정하는데 유용할 수 있다. 예를 들어, "훌륭해(that's great)" 또는 "죽이는데(cool)"라는 용어의 인식은 만족의 척도를 나타내는 반면, "불쾌함(stinks)" 또는 "형편없군(terrible)"이라는 용어는 불만족의 척도를 나타낸다.

단계(214)에서, 검출된 고객(108a, 108b)의 감정이 검출될 수 있다. 고객(108a)이 제품을 응시하기 때문에, 고객의 감정만이 검출된다. 고객(108a)의 감정의 검출은 고객(108a)의 음성 및/또는 얼굴 표정의 검출에 (적어도 부분적으로) 기초하는 것이 바람직하다. 더욱이, 검출된 감정의 세기도 또한 검출될 수 있다. 예를 들어, 상기된 표정과 같은 특정한 얼굴 표정은 웃음보다 더 큰 감정적 세기를 갖는다. 이와 유사하게, 고객이 자신의 음성 패턴(예를 들어, 빠르게 또는 크게 이야기하는 것)을 변화시키거나, 감탄사를 이용하는 것과 같은 감정의 세기는 고객(108a)의 검출된 음성에서 검출될 수 있다. 얼굴 표정 및 음성에서의 감정의 인식은, 콜메나레즈(Colmenarez) 등의, Modeling the Dynamics of Facial Expressions(2001년, 12월 10-15일, 미국, 하와이, 컴퓨티 비전 및 패턴 인식에 대한 국제 회의와 연계하여 열린 CUES 워크샵), 및 프랭크 델라어트(Frank Dellaert) 등의, 음성에서의 감정 인식(1996년, 음성 및 언어 처리에 대한 국제 회의 회보), 및 폴진(Polzin) 등의, 음성에서의 감정 검출(1998년, 협동 다중 모델 통신회의 회보)에 기재된 것과 같이 기술에 잘 알려져 있다. 단계(216)에서, 제품과의 신체적 대화와 같이 제품(104)과 고객(108a)의 대화가 있는지가 결정된다. 예를 들어, 디스플레이되는 제품(예를 들어, 자동차)에 관해, 고객(108a)이 제품을 만지고, 가능하면 제품의 특정 스위치 또는 다른 부분을 통해 조작한다는 결정은, 특히 호의적인 감정, 음성 및/또는 얼굴 표정의 검출과 결합될 때, 제품에 대한 만족의 척도를 나타낼 수 있다. 신체적 대화의 결정은 카메라(102) 및/또는 촉각 센서(미도시)로부터의 피드백으로부터 이미지 데이터를 분석함으로써 이루어질 수 있다. 제품과의 신체적 대화를 결정하는 그러한 방법은 이 기술에 잘 알려져 있다. 전술한 바와 같이, 고객(108a, 108b)의 성별, 인종 기원, 및 나이와 같은 다른 특징의 검출은 또한 바람직하게는 단계(218)에서 이루어질 수 있다. 그러한 특징이 제품에 대한 만족의 척도를 결정하는데 유용하지 않을 수 있더라도, 마케팅에 대해서는 매우 유용할 수 있다. 예를 들어, 방법(200)은 대부분의 여성이 특정 제품에 대해 만족한 반면, 대부분의 남성은 제품에 불만족하거나 관심이 없다는 것을 결정한다. 유사한 마케팅 전략은 만족 및 인종 기원 및/또는 나이의 분석으로부터 습득될 수 있다.

단계(220)에서, 고객 만족은 전술한 특징의 적어도 하나, 바람직하게는 그러한 특징의 조합에 기초하여 결정된다. 그러한 결정에 대한 간단한 알고리즘은, 각 특징에 가중치를 할당하고, 만족/불만족의 척도를나타내는 점수를 계산하는 것이다. 즉, 미리 결정된 수 미만인 점수는 불만족을 나타내는 반면, 미리 결정된 수를 초과하는 점수는 제품(104)에 대한 만족을 나타낸다. 다른 예는, 가능한 만족이 나타나는 각 특징에 대한 포인트를 할당하는 것인데, 여기서 검출된 모든 특징에 대한 포인트의 누적 점수가 미리 결정된 수를 초과하면, 만족을 나타내고, 미리 결정된 수 미만의 누적 점수는 제품(104)에 대한 불만족을 나타낸다. 알고리즘은 또한 복잡할 수 있고, 검출된 특징의 많은 시나리오 및 조합을 제공할 수 있다. 예를 들어, 전술한 바와 같이, 오랜 시간 동안 제품(104)을 응시하는 것으로 검출되고 자신의 음성 및 얼굴 표정에서의 감정의 높은 세기가 검출되는 고객(108a)은 제품에 대해 큰 만족을 나타내는 반면, 불만 있는 얼굴 표정 및 자신의 음성에서 불만 있는 감정으로 제품을 보는 고객(108a)은 그 제품에 관심이 거의 없거나 전혀 없다는 것을 나타낸다. 이와 유사하게, 짧은 시간 동안만 제품(104)을 응시하고 자신의 음성 및 얼굴 표정에 감정이 거의 없거나 전혀 없는 고객(108a)은 제품(104)에 관심이 거의 없거나 전혀 없다는 것을 나타낼 수 있다.

단계(222)에서, 분석 결과는 다른 방법 또는 장치에서 검토, 통계 분석 또는 이용을 위해 출력된다.

본 발명의 방법은 특히 본 방법의 각 단계에 대응하는 모듈을 포함하는 것이 바람직한 컴퓨터 소프트웨어 프로그램과 같은 컴퓨터 소프트웨어 프로그램에 의해 수행되도록 맞춰진다. 그러한 소프트웨어는 물론 집적 칩 또는 주변 디바이스와 같은 컴퓨터-판독가능 매체에서 구현될 수 있다.

본 발명의 바람직한 실시예인 것으로 고려된 것이 도시되고 설명되었지만, 물론, 형태 또는 세부사항에서 다양한 변형 및 변경이 본 발명의 사상에서 벗어나지 않고도 쉽게 이루어질 수 있음이 이해될 것이다. 그러므로, 본 발명이 설명되고 예시된 정확한 형태에 한정되지 않고, 첨부된 청구 범위 내에 있을 수 있는 모든 변형을 포함하도록 구성되어야 한다는 것이 의도된다.

상술한 바와 같이, 본 발명은 일반적으로 시각 및 음성 인식에 관한 것으로, 더 구체적으로, 시각 및/또는 음성 인식을 통해 고객 만족을 측정하는 방법 및 디바이스 등에 이용된다.

Claims

서비스, 제품, 콘텐트(104) 중 적어도 하나에 대한 고객 만족을 측정하는 방법으로서,

고객(108a)에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하는 단계와,

상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대해,

(a) 상기 고객(108a)의 응시의 검출과

(b) 상기 고객(108a)의 얼굴 표정의 검출과,

(c) 상기 고객(108a)의 감정의 검출과,

(d) 상기 고객(108a)의 음성의 검출과,

(e) 상기 고객(108a)의 대화의 검출

중 적어도 하나에 대한 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하는 단계와,

상기 (a) 내지 (e) 단계 중 적어도 하나에 기초하여 고객 만족을 결정하는 단계를

포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 이미지 및 음성 데이터의 적어도 하나로부터 상기 고객(108a)의 성별, 인종, 및 나이 중 적어도 하나를 결정하는 것을 더 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 취득 단계는 상기 이미지 데이터에서 상기 고객(108a)을 식별하는 단계를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 3항에 있어서, 상기 식별 단계는 상기 이미지 데이터에서 얼굴을 검출하는 단계를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 3항에 있어서, 상기 식별 단계는 상기 이미지 데이터에서의 물체를 사람 및 사람이 아닌 것으로 분류하는 단계를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 고객(108a)의 응시의 검출 단계는, 상기 검출된 응시방향이 상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나를 향해 있는 지의 결정과, 상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나를 향하는 응시의 지속기간 중 적어도 하나를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 고객(108a)의 얼굴 표정의 검출 단계는, 상기 검출된 얼굴 표정이 만족 또는 불만족 중 하나인지를 결정하는 단계를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 6항에 있어서, 얼굴 표정이 검출될 때 상기 고객(108a)의 응시 방향이 상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나를 향하는 지를 검출하는 단계를 더 포함하며, 상기 고객 만족의 결정 단계는 이에 적어도 부분적으로 기초하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 고객(108a)의 감정의 검출은 상기 고객(108a)의 음성 및 얼굴 표정 중 적어도 하나의 검출에 적어도 부분적으로 기초하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 고객(108a)의 감정의 검출은 상기 고객(108a)의 감정의 세기를 검출하는 것을 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 10항에 있어서, 상기 감정 세기의 검출은 상기 고객(108a)의 음성 및 얼굴 표정 중 적어도 하나의 검출에 적어도 부분적으로 기초하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 고객(108a)의 음성의 검출은 상기 인식된 음성의 특정 어투를 검출하는 단계를 포함하는 것을 특징으로 하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 고객(108a)의 음성의 검출은 상기 인식된 음성에서 감정을 검출하는 단계를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
제 1항에 있어서, 상기 서비스, 제품 및 컨텐트(104) 중 적어도 하나와 상기 고객(108a)의 대화의 검출 단계는 상기 제품, 서비스 및 컨텐트(104) 중 적어도 하나와의 신체적 대화를 검출하는 단계를 포함하는, 서비스, 제품, 콘텐트 중 적어도 하나에 대한 고객 만족을 측정하는 방법.
서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대한 고객 만족을 측정하기 위해 컴퓨터-판독가능 매체에서 구현된 컴퓨터-프로그램 제품으로서,

상기 고객(108a)에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하기 위한 컴퓨터 판독가능 프로그램 코드 수단과,

(a) 상기 고객(108a)의 응시의 검출과,

(b) 상기 고객(108a)의 얼굴 표정의 검출과,

(c) 상기 고객(108a)의 감정의 검출과,

(d) 상기 고객(108a)의 음성의 검출과,

(e) 상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나와의 고객(108a)의 대화의 검출

중 적어도 하나에 대한 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하기 위한 컴퓨터 판독가능 프로그램 코드 수단과,

상기 (a) 내지 (e) 중 적어도 하나에 기초하여 고객 만족을 결정하기 위한 컴퓨터 판독가능 프로그램 코드 수단을

포함하는, 컴퓨터 프로그램 제품.
제 15항에 있어서, 이미지 및 음성 데이터의 적어도 하나로부터 상기 고객(108a)의 성별, 인종, 및 나이 중 적어도 하나를 결정하는 컴퓨터 판독가능 프로그램 코드 수단을 더 포함하는, 컴퓨터 프로그램 제품.
서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대한 고객 만족을 측정하기 위한 방법 단계를 수행하도록 기계에 의해 수행가능한 지령의 프로그램을 명백히 구현하는, 기계에 의해 판독가능한 프로그램 저장 디바이스로서, 상비 방법은,

고객(108a)에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하는 단계와,

상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대해,

(a) 상기 고객(108a)의 응시의 검출과

(b) 상기 고객(108a)의 얼굴 표정의 검출과,

(c) 상기 고객(108a)의 감정의 검출과,

(d) 상기 고객(108a)의 음성의 검출과,

(e) 상기 고객(108a)의 대화의 검출

중 적어도 하나에 대한 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하는 단계와,

상기 (a) 내지 (e) 단계 중 적어도 하나에 기초하여 고객 만족을 결정하는 단계를

포함하는, 프로그램 저장 디바이스.
제 17항에 있어서, 상기 방법은, 이미지 및 음성 데이터의 적어도 하나로부터 상기 고객(108a)의 성별, 인종, 및 나이 중 적어도 하나를 결정하는 단계를 더 포함하는, 프로그램 저장 디바이스.
서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대한 고객 만족을 측정하는 장치(100)로서,

상기 고객(108a)에 대한 이미지 및 음성 데이터 중 적어도 하나를 취득하기 위한 카메라(102) 및 마이크(106) 중 적어도 하나와,

상기 서비스, 제품, 및 컨텐트(104) 중 적어도 하나에 대해,

(a) 상기 고객(108a)의 응시의 검출과

(b) 상기 고객(108a)의 얼굴 표정의 검출과,

(c) 상기 고객(108a)의 감정의 검출과,

(d) 상기 고객(108a)의 음성의 검출과,

(e) 상기 고객(108a)의 대화의 검출

중 적어도 하나에 대해 이미지 및 음성 데이터 중 취득된 적어도 하나를 분석하기 위한 수단(110, 112)을 구비한 프로세서(114)를 포함하며,

여기서 상기 프로세서(114)는 (a) 내지 (e) 중 적어도 하나에 기초하여 고객 만족을 결정하는 수단을 더 구비하는, 서비스, 제품, 및 컨텐트 중 적어도 하나에 대한 고객 만족을 측정하는 장치.
제 19항에 있어서, 상기 프로세서(114)는 이미지 및 음성 데이터의 적어도 하나로부터 상기 고객(108a)의 성별, 인종, 및 나이 중 적어도 하나를 결정하는 수단을 더 구비하는, 서비스, 제품, 및 컨텐트 중 적어도 하나에 대한 고객 만족을 측정하는 장치.