KR102372017B1

KR102372017B1 - 표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Info

Publication number: KR102372017B1
Application number: KR1020210088534A
Authority: KR
Inventors: 이혜정
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-11-27
Filing date: 2021-07-06
Publication date: 2022-03-07
Also published as: KR20200062843A; KR102276216B1; KR20210087923A

Abstract

본 발명은 표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것으로, 이러한 본 발명은 이미지 검색어가 입력되면, 입력된 이미지 검색어의 얼굴 이미지로부터 표정벡터를 추출하고, 벡터 도메인 상에서 상기 추출된 표정벡터가 속하는 표정벡터그룹에 해당하는 특정 표정으로 상기 이미지 검색어를 인식하고, 인식된 특정 표정과 동일한 특정 표정으로 분류된 컨텐츠를 추천하는 컨텐츠처리부를 포함하는 표정 기반 컨텐츠 추천 장치와, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공한다.

Description

표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체{Apparatus for recommending contents based on facial expression, method thereof and computer recordable medium storing program to perform the method}

본 발명은 컨텐츠 검색 기술에 관한 것으로, 보다 상세하게는, 기본 표정을 기초로 특정 개인의 고유의 표정인 특정 표정을 정의하고, 정의된 특정 개인의 특정 표정과 유사한 표정을 가지는 이미지 혹은 동영상 컨텐츠를 검색하는 표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다.

사람의 표정 (감정)을 파악하기 위해 과거부터 많은 연구들이 진행되어 오고 있으며, 현재까지 가장 널리 쓰이는 표정 분류 카테고리는 1970년경 Ekman 교수가 정의한 7개 기본 표정이다. 이것은 각각 인간의 표정을 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger), 혐오(Disgust)로 크게 그룹핑한 분류이다.

얼굴인식 기술을 통해 사진 혹은 동영상에 등장하는 사람이 누구인지를 규명해내는 기술, 객체 인식 기술을 통해 사진 혹은 동영상에 등장하는 사물이 무엇인지를 규명해내는 기술 등과 같이 딥 러닝 이후 영상 인식 기술의 비약적인 발전을 통해 각종 영상 인식 기술들은 과거 대비 성능에서 큰 혁신을 이루었고, 상용 서비스에 다양한 형태로 적용이 가능한 수준에 이르렀다.

얼굴 혹은 사물 인식은 정답이 명확하다. 즉, 얼굴 혹은 사물 인식은 누가 채점해도 정답이 무엇인 지 명확하다. 예컨대, '정우성'을 정우성이라 인식해야 하고, '코끼리'를 코끼리로 인식해야 한다. 이에 반해, 표정 인식 기술의 경우는 1) 특정 표정에 대해서 보는 사람마다 어떤 표정인지를 명확히 판단하기 어렵고, 2) 기쁘면서 눈물을 흘리거나, 무서워서 놀라기도 하지만 기쁘고 흥분해서 놀라기도 하는 등 사람의 표정은 한 가지 감정으로 잘라서 정의하기 어려운 복합적인 감정이 많으며, 3) 표정 근육을 많이 사용하여 과장되고 정확하게 표현하는 사람들도 있지만, 대부분의 사람은 표정 변화가 크지 않은 경우가 많음 등의 이슈가 있다.

즉, 표정 인식 기술은 다른 영상 인식 기술분야처럼 정답이 명확하지 않아, 카테고리 별 학습 데이터를 모으기도 쉽지 않지만 어떠한 분류 체계로 학습을 시켜서 정답을 제시해야 할지에 대한 기준도 정의하기가 쉽지 않다.

한국공개특허 제10-2005-0007688호, 2005년 01월 21일 공개 (명칭: 얼굴인식/표정인식 시스템 및 방법)

본 발명의 목적은 기본 표정을 기초로 특정 개인의 고유의 표정을 나타내는 특정 표정을 정의하는 표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공함에 있다.

본 발명의 다른 목적은 정의된 특정 개인의 특정 표정과 유사한 표정을 가지는 이미지 혹은 동영상 컨텐츠를 검색하는 표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공함에 있다.

본 발명은 일반적인 사람들의 보편적인 표정이 아니라, 특정인의 고유의 표정을 특정하고, 인식하며, 분류할 수 있다. 이에 따라, 특정인의 고유의 표정을 기초로 컨텐츠를 분류하고, 검색하며, 추천하는 서비스를 제공할 수 있다. 이러한 서비스는 사용자에게 새로운 사용자경험(UX)을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 기본표정인식기의 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 특정 표정을 정의하기 위한 벡터 도메인을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 기본 표정을 학습하는 절차를 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따른 특정인의 특정 표정을 정의하는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따른 표정 기반의 컨텐츠 분류 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 표정 기반 컨텐츠 추천 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 실시예에 따른 특정 표정에 따라 동영상 컨텐츠를 분류하는 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 실시예에 따른 특정 표정에 따라 동영상 컨텐츠를 분류하는 방법을 설명하기 위한 도면이다.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.

더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

아울러, 본 발명의 범위 내의 실시 예들은 컴퓨터 실행가능 명령어 또는 컴퓨터 판독가능 매체에 저장된 데이터 구조를 가지거나 전달하는 컴퓨터 판독가능 매체를 포함한다. 이러한 컴퓨터 판독가능 매체는, 범용 또는 특수 목적의 컴퓨터 시스템에 의해 액세스 가능한 임의의 이용 가능한 매체일 수 있다. 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EPROM, CD-ROM 또는 기타 광디스크 저장장치, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터 실행가능 명령어, 컴퓨터 판독가능 명령어 또는 데이터 구조의 형태로 된 소정의 프로그램 코드 수단을 저장하거나 전달하는 데에 이용될 수 있고, 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스 될 수 있는 임의의 기타 매체와 같은 물리적 저장 매체를 포함할 수 있지만, 이에 한정되지 않는다.

먼저, 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 장치를 설명하기 위한 블록도이다. 도 2는 본 발명의 실시예에 따른 기본표정인식기의 구성을 설명하기 위한 도면이다. 도 3은 본 발명의 실시예에 따른 특정 표정을 정의하기 위한 벡터 도메인을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 실시예에 따른 컨텐츠추천장치(10)는 인식부(100) 및 제어부(200)를 포함한다.

인식부(100)는 복수의 인식기를 포함한다. 복수의 인식기는 인식부(100)는 적어도 기본표정인식기(110)를 포함한다. 더욱이, 인식부(100)는 표정근육인식기(120) 및 랜드마크인식기(130) 중 적어도 하나를 더 포함할 수 있다. 이러한 인식기는 전방전달신경망(FNN: feedforward neural network), 순환인공신경망(RNN: Recurrent neural network), 합성곱신경망(CNN: convolutional neural networks) 및 코헨자기조직신경망(KSN: kohonen self-organizing network) 등의 인공신경망(ANN: artificial neural network)을 예시할 수 있다. 또한, 인식기는 인공신경망뿐만 아니라, 트리인식기, 서포트 벡터 머신(SVM: support vector machine), 퍼셉트론(perceptron), RBF(radial basis function) 등을 예시할 수 있다.

인식부(100)의 복수의 인식기는 학습(Machine learning)된 바에 따라 얼굴 이미지로부터 얼굴 이미지의 특징을 추출하고, 추출된 특징으로부터 얼굴 이미지의 표정이 어떤 표정인지 인식, 즉, 결정하는 기능을 가진다. 하지만, 본 발명은 인식부(100)의 복수의 인식기를 학습시키고, 학습된 바에 따라 인식부(100)를 통해 특징을 추출하되, 얼굴 이미지의 표정이 어떤 표정인지 인식, 즉, 결정하는 기능을 수행하지 않는다. 대신, 인식부(100)를 통해 추출된 얼굴 이미지의 특징을 벡터화하고, 이를 벡터 공간에 사상한 후, 특정 인물의 고유의 표정인 특정 표정을 정의한다. 이러한 인식부(100)의 동작에 대해서는 아래에서 더 상세하게 설명될 것이다.

한편, 전술한 바와 같이, 본 발명의 실시예에 따른 인식부(100)는 복수의 인식기를 포함한다. 복수의 인식기 중 기본표정인식기(110)는 미리 정의된 복수의 기본 표정을 학습하고, 인식하기 위한 것이다.

그러면, 이러한 기본표정인식기(100)의 일례에 대해서 설명하기로 한다. 아래의 실시예에서 기본표정인식기(100)는 합성곱신경망(CNN: convolutional neural networks)을 대표적인 예로 설명할 것이다. 하지만, 본 발명을 이에 한정하는 것은 아니며, 이 기술분야에서 통상의 지식을 가진자라면, 학습(Machine learning)에 따라 얼굴의 기본 표정을 인식하는 모든 종류의 인식기를 사용할 수 있음을 이해할 수 있을 것이다.

도 2를 참조하면, 기본표정인식기(110)는 복수의 계층을 포함한다. 복수의 계층은 어느 하나의 계층의 출력이 가중치가 적용되는 복수의 연산을 통해 다음 계층을 구성한다. 여기서, 가중치는 계층 간 연결의 강도를 결정한다.

기본표정인식기(110)는 입력계층(input layer: IL), 컨볼루션계층(convolution layer: CL), 풀링계층(pooling layer: PL), 완전연결계층(fully-connected layer: FL) 및 출력계층(Output layer: ML)을 포함한다.

입력계층(IL)은 소정 크기의 행렬로 이루어진다. 입력계층(IL) 행렬의 각 원소는 입력되는 이미지의 각각의 픽셀에 대응한다.

도 2에 도시된 바에 따르면, 2개의 컨볼루션계층(CL: CL1, CL2)과 2개의 풀링계층(PL: PL1, PL2)이 교대로 반복되는 것으로 도시하였지만, 본 발명은 이에 한정되지 않으며, 이 기술분야에서 통상의 지식을 가진자는 컨볼루션계층(CL) 및 풀링계층(PL)의 수 및 배치 순서가 인공신경망의 설계에 따라 변동될 수 있음을 이해할 수 있을 것이다. 컨볼루션계층(CL)과 풀링계층(PL) 각각은 복수의 특징 지도(Feature Map)로 이루어지며, 이러한 특징 지도 각각은 소정 크기의 행렬이다. 특징 지도를 이루는 행렬의 원소 각각의 값은 이전 계층에 대해 커널을 이용한 컨볼루션 연산(convolution) 혹은 풀링 연산(pooling 혹은 subsampling)을 적용하여 산출된다. 여기서, 여기서, 커널은 소정 크기의 행렬이며, 커널을 이루는 행렬의 각 원소의 값은 가중치(w)가 된다.

완전연결계층(FL)은 복수의 노드(혹은 sigmoid: f1, f2, f3...... fn)를 포함하며, 출력계층(OL)은 복수의 출력노드(O1, O2, O3,... O7)를 포함한다. 완전연결계층(FL)의 연산 또한 가중치(w)가 적용되어 출력계층(OL)의 복수의 출력노드(O1, O2, O3...... O7)에 입력된다. 복수의 출력노드(O1, O2, O3...... O7) 각각은 소정의 표정에 대응한다. 예컨대, 이러한 표정은 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger) 및 혐오(Disgust)를 포함한다.

예를 들면, 제1 출력 노드(O1)는 기본 표정 중 공포(Fear)에 대응하며, 제1 출력 노드(O1)의 출력인 제1 출력값은 얼굴 이미지의 기본 표정이 공포(Fear)일 확률을 나타낸다. 예컨대, 제1 출력 노드(O1)의 출력인 제1 출력값이 0.02이면, 얼굴 이미지의 기본 표정이 공포(Fear)일 확률이 2%임을 나타낸다.

다른 예로, 제2 출력 노드(O2)는 기본 표정 중 경멸(Contempt)에 대응하며, 제2 출력 노드(O2)의 출력인 제2 출력값은 얼굴 이미지의 기본 표정이 경멸(Contempt)일 확률을 나타낸다. 예컨대, 제2 출력 노드(O2)의 출력인 제2 출력값이 0.01이면, 얼굴 이미지의 기본 표정이 경멸(Contempt)일 확률이 1%임을 나타낸다.

다른 예로, 제3 출력 노드(O3)는 기본 표정 중 슬픔(Sadness)에 대응하며, 제3 출력 노드(O3)의 출력인 제3 출력값은 얼굴 이미지의 기본 표정이 슬픔(Sadness)일 확률을 나타낸다. 예컨대, 제3 출력 노드(O3)의 출력인 제3 출력값이 0.79이면, 얼굴 이미지의 기본 표정이 슬픔(Sadness)일 확률이 79%임을 나타낸다.

다른 예로, 제7 출력 노드(O7)는 다른 예로, 제7 출력 노드(O7)는 기본 표정 중 혐오(Disgust)에 대응하며, 제7 출력 노드(O7)의 출력인 제7 출력값은 얼굴 이미지의 기본 표정이 혐오(Disgust)일 확률을 나타낸다. 예컨대, 제7 출력 노드(O7)의 출력인 제7 출력값이 0.11이면, 얼굴 이미지의 기본 표정이 혐오(Disgust)일 확률이 11%임을 나타낸다.

복수의 계층(IL, CL, PL, FL, OL) 각각은 복수의 연산을 포함한다. 복수의 계층(IL, CL, PL, FL, OL)의 복수의 연산 각각은 가중치(w)가 적용되며, 가중치(w)가 적용된 연산 결과는 다음 계층으로 전달된다. 즉, 이전 계층의 연산 결과는 다음 계층의 입력이 된다. 좀 더 자세히, 도 2에 도시된 바를 예로 하여 각 계층의 연산과 그 가중치(w)에 대해 설명하기로 한다.

전술한 바와 같이, 입력계층(IL)은 소정 크기의 행렬인 특징지도이다. 입력계층(IL)의 행렬의 원소는 픽셀 단위이다. 그 행렬의 원소 각각은 얼굴 이미지의 각 픽셀의 픽셀값 등이 될 수 있고, 픽셀값은 이진 데이터로 입력계층(IL)의 행렬의 원소에 입력될 수 있다.

그러면, 입력계층 행렬에 대해 복수의 커널(K) 각각을 이용한 컨벌루션 연산(convolution)이 수행되며, 그 연산 결과는 제1 컨벌루션 계층(CL1)의 복수의 특징지도에 입력된다. 여기서, 복수의 커널(K1) 각각은 행렬의 원소가 가중치(w)인 소정 크기의 행렬을 이용할 수 있다. 또한, 제1 컨벌루션 계층(CL1)의 복수의 특징지도 각각은 소정 크기의 행렬이다.

다음으로, 제1 컨벌루션 계층(CL1)의 복수의 특징 지도에 대해 복수의 커널(K)을 이용한 풀링 연산(subsampling)이 수행된다. 복수의 커널(K) 또한 각각이 원소가 가중치(w)로 이루어진 소정 크기의 행렬이다. 이러한 풀링 연산(subsampling)의 연산 결과는 제1 풀링계층(PL1)의 복수의 특징지도에 입력된다. 제1 풀링계층(PL1)의 복수의 특징지도 역시 각각이 소정 크기의 행렬이다.

이어서, 제1 풀링계층(PL1)의 복수의 특징 지도에 대해 행렬의 원소 각각이 가중치(w)로 이루어진 소정 크기의 행렬인 커널(K)을 이용한 컨벌루션 연산(convolution)을 수행하여, 복수개의 특징 지도로 이루어진 제2 컨벌루션 계층(CL2)을 구성한다. 다음으로, 제2 컨벌루션 계층(CL2)의 복수의 특징 지도에 대해 복수의 가중치(w)로 이루어진 행렬인 커널(K)을 이용한 풀링 연산(subsampling)을 수행하여 복수의 특징 지도로 이루어진 제2 풀링계층(PL2)을 구성한다. 제2 풀링계층(PL2) 역시 각각이 소정 크기의 행렬이다.

그런 다음, 제2 풀링계층(PL2)의 복수의 특징 지도에 대해 복수의 커널(K)을 이용한 컨벌루션 연산(convolution)을 수행한다. 복수의 커널(K) 또한 그 원소가 가중치(w)로 이루어진 소정 크기의 행렬이다. 복수의 커널(K)을 이용한 컨벌루션 연산(convolution) 결과에 따라 완전연결계층(FL)이 생성된다. 다른 말로, 복수의 커널(K5)을 이용한 컨벌루션 연산(convolution) 결과는 복수의 노드(f1 내지 fn)에 입력된다.

완전연결계층(FL)의 복수의 노드(f1 내지 fn) 각각은 제2 풀링계층(PL2)으로부터 입력에 대해 전달함수 등을 이용한 소정의 연산을 수행하고, 그 연산에 가중치(w)를 적용하여 출력계층(OL)의 각 노드에 입력한다. 이에 따라, 출력계층(OL)의 복수의 노드(O1 ~ O7)는 완전연결계층(FL)으로부터 입력된 값에 대해 소정의 연산을 수행하고, 그 결과인 출력값을 출력한다. 전술한 바와 같이, 복수의 출력 노드(O1, O2, O3, ...... O7) 각각은 소정의 기본 표정에 대응하며, 이러한 복수의 출력 노드(O1, O2, O3, ... O7) 각각의 출력값은 기본 표정에 대응하는 확률값이다.

전술한 바와 같이, 기본표정인식기(110)의 복수의 계층 각각은 복수의 연산으로 이루어지며, 어느 하나의 계층의 어느 하나의 연산 결과는 가중치(w)가 적용되어 후속 계층에 입력된다. 따라서 기본표정인식기(110)는 얼굴 이미지가 입력되면, 얼굴 이미지의 각 픽셀 단위로 가중치(w)가 적용되는 복수의 연산을 수행하여 그 연산의 결과를 출력한다. 이러한 연산 결과에 따라 최종적으로 출력 노드(O1, O2, O3...... O7) 각각의 출력값은 기본 표정에 대응하는 확률값이된다. 예컨대, 출력 노드(O1, O2, O3...... O7) 각각의 출력값은 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger) 및 혐오(Disgust) 각각의 확률값이 된다.

다시 도 1을 참조하면, 제어부(200)는 컨텐츠추천장치(10)의 전반적인 동작 및 사용자장치(100)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(200)는 기본적으로, 컨텐츠추천장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(200)는 중앙처리장치(CPU: Central Processing Unit), 디지털신호처리기(DSP: Digital Signal Processor) 등을 예시할 수 있다.

제어부(200)는 인식부(100)의 복수의 인식기를 이용하여 얼굴 이미지로부터 특정인의 고유의 표정인 특정 표정을 정의하고, 정의된 특정 표정에 따라 컨텐츠를 분류하여 제공하거나, 특정 표정과 유사한 컨텐츠를 검색하여 추천한다. 이러한 제어부(200)는 표정처리부(210) 및 컨텐츠처리부(230)를 포함한다.

표정처리부(210)는 특정인의 특정 표정을 정의하기 위한 것이다. 여기서, 특정인의 특정 표정은 특정인의 고유한 표정을 의미한다. 여기서, 특정인은 연예인, 유명 운동선수, 유명 작가 등과 같은 유명인(celebrity)이 바람직하다. 이때, 표정처리부(210)는 미리 정의된 복수의 기본 표정을 기초로 벡터 도메인(VD) 상에서 특정인의 적어도 하나의 특정 표정을 정의한다. 도 3에 이러한 벡터 도메인(VD)과 벡터 도메인 상에서 정의된 복수의 특정 표정(G1 내지 G5)이 도시되었다. 표정처리부(210)는 얼굴 이미지로부터 기본 표정을 기초로 하는 표정벡터를 추출하고, 추출된 표정벡터를 벡터 도메인(VD) 상에서 유사도에 따라 클러스터링하여 표정벡터그룹(예컨대, G1, G2, G3, G4, G5)을 생성한다. 그리고 표정벡터그룹을 특정 표정에 매핑하여 특정 표정을 정의한다.

컨텐츠처리부(220)는 앞서 정의된 특정 표정에 따라 컨텐츠를 추천하기 위한 것이다. 일 실시예에 따르면, 컨텐츠처리부(220)는 이미지 검색어로 얼굴 이미지가 입력되면, 정의된 특정 표정을 참조하여 입력된 얼굴 이미지와 가장 유사한 특정 표정을 가지는 얼굴 이미지가 포함된 적어도 하나의 콘텐츠를 검색하고, 검색된 콘텐츠를 추천할 수 있다. 다른 실시예에 따르면, 컨텐츠처리부(220)는 컨텐츠 추천 요청이 있으면, 정의된 특정 표정을 참조하여 컨텐츠를 특정 표정에 따라 분류하여 분류된 컨텐츠를 추천할 수 있다. 표정처리부(210) 및 컨텐츠처리부(230)를 포함하는 제어부(200)의 동작은 아래에서 더 상세하게 설명될 것이다.

다음으로, 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 방법에 대해서 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 방법을 설명하기 위한 흐름도이다.

도 3 및 도 4를 참조하면, 먼저, 표정처리부(210)는 S10 단계에서 특정인의 특정 표정을 정의한다. 여기서, 특정인의 특정 표정은 특정인의 고유한 표정을 의미한다. 여기서, 특정인은 연예인, 유명 운동선수, 유명 작가 등과 같은 유명인(celebrity)이 바람직하다. 이때, 표정처리부(210)는 미리 정의된 복수의 기본 표정을 기초로 벡터 도메인(VD) 상에서 특정인의 적어도 하나의 특정 표정을 정의한다.

특정 표정이 정의되면, 컨텐츠처리부(220)는 S20 단계에서 정의된 특정 표정에 따라 컨텐츠를 추천한다. S20 단계의 일 실시예에 따르면, 컨텐츠처리부(220)는 이미지 검색어로 얼굴 이미지가 입력되면, 정의된 특정 표정을 참조하여 입력된 얼굴 이미지와 가장 유사한 특정 표정을 가지는 얼굴 이미지가 포함된 적어도 하나의 콘텐츠를 검색하고, 검색된 콘텐츠를 추천할 수 있다. S20 단계의 다른 실시예에 따르면, 컨텐츠처리부(220)는 컨텐츠 추천 요청이 있으면, 정의된 특정 표정을 참조하여 컨텐츠를 특정 표정에 따라 분류하여 분류된 컨텐츠를 추천할 수 있다.

그러면, 전술한 S10 단계의 특정 표정을 정의하는 방법 및 S20 단계에 컨텐츠를 추천하는 방법 각각에 대해서 보다 상세하게 설명하기로 한다. 먼저, 특정 표정을 정의하는 방법에 대해서 설명한다. 특정 표정을 정의하기 위해 기본 표정을 학습하고, 기본 표정을 기초로 특정인의 특정 표정을 정의하는 절차가 요구된다. 따라서 우선, 본 발명의 실시예에 따른 기본 표정을 학습하는 절차에 대해서 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 기본 표정을 학습하는 절차를 설명하기 위한 흐름도이다.

도 5를 참조하면, 표정처리부(210)는 S110 단계에서 기본 표정 학습 이미지를 입력 받고, S120 단계에서 입력된 기본 표정 학습 이미지로부터 얼굴 인식(Face Recognition) 기술을 통해 얼굴 이미지를 도출한다. 기본 표정 학습 이미지는 기본 표정이 알려진 얼굴 이미지를 포함한다. 기본 표정은 예컨대, 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger), 혐오(Disgust) 등 미리 정의되어 1개의 워드로 표현될 수 있는 표정을 의미한다. 예컨대, 학습하고자 하는 기본 표정이 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger) 및 혐오(Disgust)라면, 기본 표정 학습 이미지는 기본 표정 학습 이미지에 포함된 얼굴 이미지의 표정이 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger) 및 혐오(Disgust) 중 어떤 것인지 알려진 이미지이다.

이에 따라, 표정처리부(210)는 S130 단계에서 기본 표정 학습 이미지의 알려진 표정에 따라 기댓값을 설정한다. 예컨대, 알려진 표정이 행복(Happiness)이라면, 목표값은 공포(Fear) = "0.000", 경멸(Contempt) = "0.000", 슬픔(Sadness) = "0.000", 행복(Happiness) = "0.800", 놀람(Surprise) = "0.200", 분노(Anger) = "0.000" 및 혐오(Disgust) = "0.000"으로 설정될 수 있다.

기댓값은 기본 표정이 알려진 얼굴 이미지를 기본표정인식기(110)에 입력했을 때, 기본표정인식기(110)가 해당 얼굴 이미지의 표정을 알려진 기본 표정으로 인식하는 경우에 기대되는 최소한의 출력값을 의미한다. 예컨대, 행복(Happiness)이라는 표정은 주로 강한 크기의 "행복(Happiness)"와 같은 표정이 나타나고, 부수적으로 약한 크기의 "놀람(Surprise)"과 같은 표정을 동반하기 때문에 기본 표정이 "행복(Happiness)"으로 알려진 얼굴 이미지를 기본표정인식기(110)에 입력하면, 기본표정인식기(110)가 해당 얼굴 이미지의 표정을 "행복(Happiness)"으로 인식하기 위해서 적어도 출력값은 최소한 행복(Happiness) = "0.700", 놀람(Surprise) = "0.200"이어야 하며, 나머지 표정들은 "1.000" 미만이 되어야 한다. 따라서 표정처리부(210)는 기댓값을 행복(Happiness) = "0.700", 놀람(Surprise) = "0.200"과 같이 설정할 수 있다.

다음으로, 표정처리부(210)는 S140 단계에서 얼굴 이미지를 기본표정인식기(110)에 입력하여 기본표정인식기(110)의 출력값을 도출한다. 이때, 기본표정인식기(110)는 입력된 얼굴 이미지에 대해 복수의 계층에 걸쳐 복수의 연산을 수행하여 출력값을 출력하며, 각 연산은 가중치를 가진다. 특히, 기본표정인식기(110)의 출력값은 학습하고자 하는 기본 표정 각각에 대한 확률값이 될 수 있다. 예컨대, 기본표정인식기(110)의 출력값은 공포(Fear) = "0.005", 경멸(Contempt) = "0.015", 슬픔(Sadness) = "0.304", 행복(Happiness) = "0.321", 놀람(Surprise) = "0.311", 분노(Anger) = "0.031" 및 혐오(Disgust) = "0.013"이 될 수 있다. 이와 같이, 학습이 완료되기 전, 앞서 설정된 기댓값과 출력값은 차이가 있다.

따라서 표정처리부(210)는 S150 단계에서 기본표정인식기(110)의 출력값과 기댓값의 차이가 최소가 되도록 소정의 알고리즘, 예컨대, 역확산(back propagation) 알고리즘을 통해 기본표정인식기(110)의 가중치를 수정할 수 있다.

이어서, 표정처리부(210)는 S160 단계에서 학습이 완료되었는지 여부를 판별한다. 즉, 표정처리부(210)는 S160 단계에서 모든 기본 표정에 대한 기본 표정 학습 이미지에 대해 기본표정인식기(110)의 출력값과 기댓값의 차이가 소정 범위 이내이면서 그 출력값의 변동이 소정 범위 이내인지 여부를 판별한다.

S160 단계의 판별 결과, 기본표정인식기(110)의 출력값과 기댓값의 차이가 소정 범위 이내가 아니거나, 그 출력값의 변동이 소정 범위 이내가 아니면, 표정처리부(210)는 S110 단계로 진행하여 새로운 기본 표정 학습 이미지를 입력 받고, 전술한 S110 단계 내지 S160 단계를 반복한다.

반면, S150 단계의 판별 결과, 기본표정인식기(110)의 출력값과 기댓값의 차이가 소정 범위 이내이면서 그 출력값의 변동이 소정 범위 이내이면, 표정처리부(210)는 S170 단계로 진행하여 기본 표정 학습을 종료한다.

다음으로, 기본 표정을 기초로 특정인의 특정 표정을 정의하는 방법에 대해서 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 특정인의 특정 표정을 정의하는 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 표정처리부(210)는 S210 단계에서 복수의 특정 표정 학습 이미지를 입력 받고, S220 단계에서 입력된 복수의 특정 표정 학습 이미지로부터 얼굴 인식(Face Recognition) 기술을 통해 복수의 특정 표정 학습 이미지 각각으로부터 특정인의 얼굴 영역을 식별하고, 특정인의 얼굴 이미지를 검출한다. 특정 표정 학습 이미지는 특정인의 얼굴 이미지를 포함하는 이미지 혹은 동영상을 포함한다. 만약, 특정 표정 학습 이미지로 특정인의 얼굴 이미지가 입력된 경우, 본 과정은 생략될 수 있다.

표정처리부(210)는 S230 단계에서 앞서(S220) 검출한 특정인의 얼굴 이미지로부터 복수의 표정벡터를 추출한다. 여기서, 일 실시예에 따르면, 표정벡터는 기본표정벡터, 표정근육벡터 및 랜드마크벡터 중 적어도 하나를 포함한다.

기본표정벡터는 소정 수의 기본 표정 각각에 대한 확률값 전체를 의미한다. 표정처리부(210)는 앞서 기본 표정에 대한 학습이 완료된 기본표정인식기(110)에 특정인의 얼굴 이미지를 입력시켜, 그 기본표정인식기(110)의 출력값을 얻을 수 있다. 전술한 바와 같이, 학습이 완료된 기본표정인식기(110)는 얼굴 이미지가 입력되면, 기본 표정 각각에 대한 확률을 출력값으로 출력한다. 예컨대, 기본표정인식기(110)가 기본 표정으로 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger) 및 혐오(Disgust)를 학습하였다고 가정한다. 표정처리부(210)는 기본표정인식기(110)에 학습 이미지로부터 검출된 얼굴 영역을 입력하면, 기본표정인식기(110)는 공포(Fear), 경멸(Contempt), 슬픔(Sadness), 행복(Happiness), 놀람(Surprise), 분노(Anger) 및 혐오(Disgust) 각각에 대응하는 확률을 출력값으로 출력한다. 예컨대, 이러한 출력값은 공포(Fear) = "0.005", 경멸(Contempt) = "0.015", 슬픔(Sadness) = "0.304", 행복(Happiness) = "0.321", 놀람(Surprise) = "0.311", 분노(Anger) = "0.031" 및 혐오(Disgust) = "0.013"이 될 수 있다. 종래의 분류기의 경우, 이러한 경우, 확률이 가장 높은 행복(Happiness) = "0.321"을 해당 얼굴 이미지의 표정으로 인식한다. 하지만, 본 발명은 해당 이미지의 얼굴의 표정을 기본 표정 중 하나로 인식하는 것이 아니라, 예시된 출력값, 슬픔(Sadness) = "0.304"인지, 행복(Happiness) = "0.321"인지 혹은 놀람(Surprise) = "0.311"을 그대로 사용하여, 슬픔(Sadness), 행복(Happiness), 및 놀람(Surprise)이 각각의 확률만큼 섞여 있는 표정을 표현한다. 따라서 본 발명은 기본표정인식기(110)의 출력값, 즉, 출력된 복수의 표정 각각의 확률값 모두를 기본표정벡터로 이용한다. 예컨대, 기본표정인식기(110)의 복수의 출력 노드(O1 내지 O7)의 출력값이 공포(Fear) = "0.005", 경멸(Contempt) = "0.015", 슬픔(Sadness) = "0.304", 행복(Happiness) = "0.321", 놀람(Surprise) = "0.311", 분노(Anger) = "0.031" 및 혐오(Disgust) = "0.013"인 경우, 기본표정벡터는 "0.005O1 + 0.015O2 + 0.304O3 + 0.321O4 + 0.311O5 + 0.031O6 + 0.013O7"이 될 수 있다. 이러한 기본표정벡터는 전술한 예와 같이, 복합적인 감정이 섞여 있어도, 기쁨 혹은 슬픔과 같이 강제로 한 가지 감정에 매핑하는 것이 아니라, 기본표정분류기의 출력값, 즉, 출력된 복수의 표정 각각의 확률값 모두를 이용함으로써, 특정인의 고유한 표정의 특징을 표현할 수 있다.

표정근육벡터는 소정의 얼굴 근육의 움직임의 특징을 나타내는 특징 벡터이다. 예컨대, 표정 근육 벡터는 눈을 뜬 정도, 입을 벌린 정도, 윙크(한쪽 눈 감음), 눈썹을 치켜 뜬 정도(눈썹과 눈과의 간격)와 같은 얼굴 근육의 움직임의 특징을 구분하는 특징 벡터이다. 표정근육인식기(120)는 얼굴 이미지로부터 소정의 눈을 뜬 정도, 입을 벌린 정도, 윙크 여부, 눈썹을 치켜 뜬 정도를 인식하고, 이를 출력한다. 따라서 표정처리부(210)는 학습 이미지로부터 검출된 얼굴 영역이 입력되면, 표정근육인식기(120)를 통해 소정의 얼굴 근육의 움직임을 값을 측정하여 표정근육벡터를 도출할 수 있다.

랜드마크벡터는 얼굴 영역에서 소정의 랜드마크의 위치의 특징을 나타내는 특징 벡터이다. 이러한 랜드마크는 눈, 코, 입 등의 주요 좌표 5개, 및 기 설정된 68개의 세부 얼굴 포인트 등이 될 수 있다. 랜드마크인식기(130)는 얼굴 이미지로부터 랜드마크의 좌표를 인식한다. 따라서 표정처리부(210)는 학습 이미지로부터 검출된 얼굴 영역이 입력되면, 랜드마크인식기(130)를 통해 얼굴 영역으로부터 소정의 랜드마크의 좌표를 식별하여 랜드마크벡터를 도출할 수 있다.

표정처리부(210)는 S240 단계에서 복수의 특정인의 얼굴 이미지 각각으로부터 도출된 표정벡터를 소정의 벡터 도메인에 사상한다. 그런 다음, 표정처리부(210)는 S250 단계에서 벡터 도메인 상에서 표정벡터를 클러스터링(Grouping 혹은 Clustering)하여 표정벡터그룹을 생성한다. 복수의 얼굴 이미지 각각에 대응하는 복수의 표정벡터가 클러스터링되어 복수의 표정벡터그룹이 형성된다. 예컨대, 표정처리부(210)는 중심값을 기준으로 소정 거리 내에 군집되어 있는 표정벡터를 클러스터링하여 표정벡터그룹을 형성한다. 이를 위하여, k nearest neighbor, k-means, 혹은 cosine similarity와 같이 클러스터링 알고리즘 및 유사도 알고리즘을 이용할 수 있다.

전술한 바와 같이, 복수의 표정벡터를 클러스터링하여 표정벡터그룹을 형성한 후, 표정처리부(210)는 S260 단계에서 표정벡터그룹을 특정 표정으로 정의한다.

도 3의 벡터 도메인(VD) 상에 5개의 표정벡터그룹(G1, G2, G3, G4, G5)이 도시되었다. 각 점들은 얼굴 이미지에 대응하는 표정벡터를 의미하며, 원은 클러스터링에 의해 형성된 표정벡터그룹의 범위를 의미한다. 특정 표정은 단순히 기본 표정인 1개의 워드, 예컨대, '행복'으로 표현할 수 없는 특정인의 고유의 표정을 나타낸다. 이러한 특정 표정은 예컨대, 한쪽 눈을 윙크하며 귀엽게 웃는 표정, 입을 약간 벌린 섹시한 표정 등을 예시할 수 있다. 기존의 어느 하나의 표정을 하나의 워드로 표현하기 위해 기본 표정을 인식하는 과정에서 하나의 워드를 제외하고, 나머지를 모두 소거하였다. 하지만, 본 발명은 예컨대, "0.005O1 + 0.015O2 + 0.304O3 + 0.321O4 + 0.311O5 + 0.031O6 + 0.013O7"과 같이 어떤 특징도 소거하지 않고 모두 이용하여 표정벡터를 추출하고, 이를 벡터 도메인 상에 사상한 후, 클러스터링을 통해 특정 표정을 하나의 워드가 아닌 복수의 표정벡터의 군집으로 정의한다. 또한, 특정 표정은 예컨대, 특정인의 고유의 한쪽 눈을 윙크하며 귀엽게 웃는 표정, 입을 약간 벌린 섹시한 표정 등으로 명명할 수 있다. 이때, 표정처리부(210)는 특정 표정을 명확히 구분할 수 있도록 표정벡터 중 기본표정벡터, 표정근육벡터 및 랜드마크벡터 각각의 가중치를 부여하고 조절할 수 있다. 각 인물 마다 랜드마크의 분포도 다르고(눈 간격, 눈과 코 간격, 각각의 랜드마크의 크기 등), 표정이 바뀔 때마다의 얼굴 근육의 움직이는 정도도 다르기 때문에, 특정인이 자주 짖는 고유한 표정들로부터 얻어지는 표정벡터가 벡터 도메인 상에서 인접한 공간에 사상된다. 따라서 이러한 클러스터링을 통해 특정인의 고유한 표정, 즉, 특정 표정을 구분할 수 있다. 따라서 인접한 공간에 사상되지 되지 않고 동떨어져 있는 표정벡터를 가지는 얼굴 이미지는 특정 표정과 다른 표정으로 규정할 수 있다.

전술한 바에 따라, 표정처리부(210)는 특정인의 특징적인 표정인 특정 표정을 정의할 수 있다. 이는 단순한 기쁨, 슬픔과 같은 기본 표정이 아니라, 특정인의 고유의 표정을 의미한다. 또한, 표정처리부(210)는 특정인의 특정 표정은 고유한 이름을 부여하여 분류 체계를 정의할 수 있다. 앞서 설명된 바와 같이, 특정인의 특정 표정은 "기쁨", "슬픔" 등과 같이 한 단어로 설명할 수 있는 표정들이 아니므로, 임의의 명명 체계를 부여하는 형태로 정의할 수 있다. 예컨대, 특정인 홍길동이 박장대소하는 모습을 홍길동_웃음_01로 명명하고, 특정인 홍길동이 가벼운 미소를 띠는 모습을 홍길동_웃음_02로 명명하는 방식이 될 수 있다. 또한, 표정처리부(210)는 특정인의 특정 표정을 직관적으로 인식할 수 있도록 해당하는 특정 표정을 가지는 복수의 얼굴 이미지 중 대표 이미지를 선정할 수도 있다.

다음으로, S20 단계에 컨텐츠를 추천하는 방법에 대해서 보다 상세하게 설명하기로 한다. 특정 표정을 정의한 후, 본 발명의 실시예에 따른 표정 기반 컨텐츠를 추천하기 위해서는 추천하고자 하는 컨텐츠를 앞서 정의된 특정인의 특정 표정에 따라 분류해야 한다. 이러한 방법에 대해서 설명하기로 한다. 도 7은 본 발명의 실시예에 따른 표정 기반의 컨텐츠 분류 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 컨텐츠처리부(140)는 S310 단계에서 컨텐츠로부터 얼굴 이미지를 도출한다. 여기서, 컨텐츠는 동영상 컨텐츠 및 이미지 컨텐츠 중 어느 하나가 될 수 있다. 특히, 동영상 컨텐츠인 경우, 컨텐츠처리부(140)는 컨텐츠를 소정의 기준에 따라 장면 별로 구분하여 얼굴 이미지를 추출할 수 있다.

이어서, 컨텐츠처리부(140)는 S320 단계에서 컨텐츠의 얼굴 이미지로부터 표정벡터를 추출한다. 그런 다음, 컨텐츠처리부(140)는 S330 단계에서 추출된 표정벡터를 벡터 도메인 상에 사상한다. 표정벡터가 벡터 도메인 상에 사상되면, 표정벡터그룹 영역 내에 속할 수 있다. 예컨대, 도 3의 제1 내지 제5 표정벡터그룹(G1 내지 G5) 중 어느 하나에 속할 수 있다. 그러면, 컨텐츠처리부(140)는 S340 단계에서 해당 컨텐츠를 표정벡터가 사상된 영역의 표정벡터그룹에 해당하는 특정 표정으로 분류한다. 예컨대, 벡터 도메인 상에 컨텐츠의 표정벡터가 사상된 영역이 제1 표정벡터그룹(G1)의 영역 내(도면에서 원 내부)이라면, 제1 표정벡터그룹(G1)에 해당하는 특정 표정으로 분류할 수 있다.

전술한 바와 같은 방식으로 복수의 컨텐츠에 대한 분류가 이루어지면 컨텐츠를 추천할 수 있다. 이러한 방법에 대해서 설명하기로 한다. 도 8은 본 발명의 일 실시예에 따른 표정 기반 컨텐츠 추천 방법을 설명하기 위한 흐름도이다.

도 8을 참조하면, 컨텐츠처리부(220)는 S410 단계에서 얼굴 이미지를 포함하는 이미지 검색어를 입력 받을 수 있다. 이러한 얼굴 이미지는 특정인이 특정 표정을 짓는 모습을 포함할 수 있다.

그리고 컨텐츠처리부(220)는 S420 단계에서 이미지 검색어로부터 얼굴 이미지를 추출한다. 그런 다음, 컨텐츠처리부(220)는 S430 단계에서 추출된 얼굴 이미지로부터 기본표정벡터, 표정근육벡터 및 랜드마크벡터를 포함하는 표정벡터를 추출한다. 이어서, 컨텐츠처리부(220)는 S440 단계에서 추출된 표정벡터를 벡터 도메인 상에 사상한다. 표정벡터가 벡터 도메인 상에 사상되면, 어느 하나의 표정벡터그룹 영역 내에 속할 수 있다. 예컨대, 도 3의 제1 내지 제5 표정벡터그룹(G1 내지 G5) 중 어느 하나에 속할 수 있다.

그러면, 컨텐츠처리부(220)는 S450 단계에서 해당 이미지 검색어를 표정벡터가 사상된 영역의 표정벡터그룹에 해당하는 특정 표정으로 분류한다. 예컨대, 벡터 도메인 상에 이미지 검색어의 표정벡터가 사상된 영역이 제2 표정벡터그룹(G2)의 영역 내(도면에서 원 내부)이라면, 컨텐츠처리부(220)는 해당 이미지 검색어를 제2 표정벡터그룹(G2)에 해당하는 특정 표정으로 분류할 수 있다.

이어서, 컨텐츠처리부(220)는 S460 단계에서 앞서(S340 단계) 분류된 컨텐츠 중 동일한 특정 표정으로 분류된 컨텐츠를 추천한다. 이때, 본 발명의 추가적인 실시예에 따르면, 컨텐츠처리부(220)는 이미지검색어와 동일한 표정벡터그룹에 속하는 컨텐츠를 이미지 검색어의 표정벡터가 사상된 위치와 가까운 순서(유사한 순서)에 따라 나열하거나, 서비스에서 원하는 개수만큼 유사한 순서대로 추출해서 제공할 수도 있다.

전술한 바와 같이, 본 발명은 얼굴, 객체 혹은 표정에 대한 인식 혹은 분류에 대한 결과값을 카테고리값인 1개 워드(Word)로 제공하는 것이 아니라, 그 결과값을 1개의 워드로 표현할 수 없지만, 특징점을 갖는 벡터값의 형태로 제공한다. 즉, 본 발명의 실시예에 따른 표정 인식 혹은 표정 분류 결과는 1개의 워드로 선택되는 것이 아니라, 벡터값들끼리 유사점이나 클러스터링의 형태로 제공한다. 따라서 본 발명은 예컨대, 행복한 표정, 정우성, 바닷가, 코끼리 등과 같이, 검색 키워드로 워드를 입력하는 것이 아니라, 이미지를 입력하면, 이와 유사한 특징을 갖는 결과값들이 나열되는 형태로 인식 혹은 분류 결과를 제공하는 서비스이다.

전술한 바와 같이 복수의 컨텐츠에 대한 분류가 이루어진 후, 본 발명의 다른 실시예에 따른 컨텐츠를 추천하는 방법에 대해서 설명하기로 한다. 여기서, 본 발명의 실시예에 따른 특정 표정에 따라 동영상 컨텐츠를 분류하는 방법에 대해서 설명하기로 한다. 도 9는 본 발명의 실시예에 따른 특정 표정에 따라 동영상 컨텐츠를 분류하는 방법을 설명하기 위한 흐름도이다. 도 10은 본 발명의 실시예에 따른 특정 표정에 따라 동영상 컨텐츠를 분류하는 방법을 설명하기 위한 도면이다.

도 9를 참조하면, 컨텐츠처리부(220)는 S510 단계에서 동영상 컨텐츠에서 특정인이 등장하는 장면의 구간을 복수의 등장장면구간으로 구분한다. 본 발명은 이미지 검색어에 포함된 얼굴 이미지에 나타난 표정과 가장 유사한 표정을 갖는 동영상 컨텐츠의 특정 구간을 매칭하여 제공하기 위한 것이다. 이때 동영상 컨텐츠는 특정 인물이 연속된 시간 값을 갖는 장면에 등장한다. 따라서 해당 장면이 연속된 시간 값을 갖고 그 장면에서 다양한 표정 변화를 갖게 되는데, 이를 이미지 검색어의 표정과 매칭하는 것이 요구된다. 따라서 본 발명에서는, 우선 동영상 컨텐츠에서 특정 인물이 등장하는 장면의 구간을 인물별 등장장면구간으로 정의 하는 과정이 선행된다. 또한, 특정 장면의 구간 내에서도 촬영 기법 상 여러 대의 카메라가 다른 화각으로 촬영한 영상을 복합적으로 편집된 경우, 특정 인물이 화면에 등장했다가 사라졌다가 하는 것이 빈번하게 될 것이다. 따라서 특정 인물의 등장장면구간은 일시적으로 화면에 사라지는 것을 배재하고, 일정 시간 기준 내에 재등장하면 같은 등장장면구간으로 처리하며, 스토리(Story) 단위의 씬(Scene)으로 구분 하는 것이 필요하다. 예컨대, 인물 A가 최초 등장해서 일정 시간 동안 기 설정된 최소 시간 이상 화면에서 사라짐 없이 계속 등장하는 구간을 그룹화하여 인물 A의 등장장면구간으로 정의한다. 이러한 방법으로 인물별 등장장면구간이 구분된다.

컨텐츠처리부(220)는 S520 단계에서 각 등장장면구간 별로 추출되는 복수의 얼굴 이미지 각각의 표정벡터를 벡터 도메인에 사상하여 복수의 얼굴 이미지 각각의 특정 표정을 도출하고, S530 단계에서 각 등장장면구간 별로 가장 많이 도출된 특정 표정을 해당 등장장면구간의 특정 표정으로 결정할 수 있다.

한편, 추가적인 실시예에 따르면, 특정 표정 결정의 정확도를 높이기 위하여, 등장장면구간의 배경 음악, 대사 등을 분석하여 등장장면구간의 감성 정보에 대한 단서를 획득하고, 이 단서 정보와 특정 표정 후보로 올라온 것들의 유사도를 산출하여, 소정의 가중치를 가지고 합산하여 해당 등장장면구간의 특정 표정을 결정할 수 있다. 예를 들면, 배경 음악, 대사 혹은 스토리 상 감성 정보가 이별 장면이라고 추정되는 경우, 벡터 도메인 상 특정 표정의 후보가 울먹거리는 표정, 놀란 표정 등의 몇 가지가 후보로 도출 된다면, 울먹거리는 표정이 유사도가 가장 높을 것이므로, 해당 특정 표정을 해당 등장장면구간의 특정 표정으로 결정할 수 있다.

이에 따라, 컨텐츠처리부(220)는 S540 단계에서 동영상 컨텐츠를 인물 및 해당 인물의 표정별로 복수의 등장장면구간으로 구분한다.

동영상 컨텐츠를 제공하는 미디어 서비스는 영화, 드라마, 예능과 같이 장르 별 카테고리로 컨텐츠를 분류하여 제공하였다. 이에 따라, 시청자는 장르를 통해 동영상 컨텐츠를 검색하고, 선택하여 동영상 컨텐츠를 시청할 수 있다. 전술한 바와 같이, 본 발명은 동영상 컨텐츠를 인물 및 해당 인물의 표정별로 복수의 등장장면구간으로 구분할 수 있다. 이에 따라, 본 발명은 동영상 컨텐츠를 제공하는 미디어 서비스 제공 시, 동영상 컨텐츠를 인물 및 해당 인물의 표정별로 복수의 등장장면구간으로 구분하여 사용자가 선택하여 시청할 수 있도록 서비스를 제공할 수 있다.

예컨대, 시청자가 메뉴 선택을 배우 A -> 배우 A 등장 장면 모음 -> 1. 배우 A의 섹시한 표정 2. 배우 A의 윙크 찡긋 표정 3. 배우 A의 우수에 찬 표정 등의 트리 구조로 제공할 수 있고, 각 표정을 직관적으로 선택할 수 있도록 메뉴는 이미지와 함께 제공될 수 있다. 이에 따라, 시청자가 메뉴에서 배우 A를 선택하면, 컨텐츠처리부(220)는 배우 A가 등장한 다양한 컨텐츠 속에서 배우 A가 등장한 등장장면구간만 모아 하이라이트 영상처럼 시청 가능하도록 제공할 수 있다. 또한, 표정을 추가로 선택하면, 해당 배우의 해당 표정이 특정 표정으로 분류된 등장장면구간만 모아 제공할 수 있다. 그러면, 시청자는 배우 A의 특징적인 표정들이 보여지는 동영상 컨텐츠를 시청할 수 있다. 또한, 시청자가 메뉴에서 순차로 검색하지 않고, 임의의 배우 A의 임의 표정 이미지를 입력하면, 컨텐츠처리부(220)는 해당 표정과 유사한 표정이 등장한 컨텐츠들을 검색하여 제공할 수도 있다.

또 다른 실시예에 따르면, 종래의 동영상 컨텐츠를 설명하거나, 검색하기 위해, 예컨대, #슈퍼맨 #바닷가 #결혼식 등과 같이, 텍스트 형식의 해시태그를 사용하였다. 본 발명은 추가적인 실시예에 따르면, 컨텐츠처리부(220)는 특정 표정에 속하는 어느 하나의 얼굴 이미지를 해시태그로 하는 표정 이미지 해시태그를 설정하여 제공할 수 있다. 또한, 컨텐츠처리부(220)는 표정 이미지 해시태그를 동영상 컨텐츠에 매핑하여 제공할 수도 있다.

이에 따라, 시청자는 직관적으로 좋아하는 표정 이미지를 선택하면, 해당 표정이 등장하는 컨텐츠를 손쉽게 검색하여 시청할 수 있다. 또한, 복수의 시청자들의 특정 표정 이미지의 선택을 집계하여, 각 연예인의 각 표정 별 인기도를 통계로 제공하는 서비스도 제공할 수도 있다.

한편, 앞서 설명된 본 발명의 실시예에 따른 표정 기반 컨텐츠 추천 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 와이어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 와이어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

본 명세서에서 설명한 주제의 특정한 실시형태를 설명하였다. 기타의 실시형태들은 이하의 청구항의 범위 내에 속한다. 예컨대, 청구항에서 인용된 동작들은 상이한 순서로 수행되면서도 여전히 바람직한 결과를 성취할 수 있다. 일 예로서, 첨부도면에 도시한 프로세스는 바람직한 결과를 얻기 위하여 반드시 그 특정한 도시된 순서나 순차적인 순서를 요구하지 않는다. 특정한 구현예에서, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.

본 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하는 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 따라서 본 발명의 범위는 설명된 실시예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.

본 발명은 일반적인 사람들의 보편적인 표정이 아니라, 특정인의 고유의 표정을 특정하고, 인식하며, 분류할 수 있다. 이에 따라, 특정인의 고유의 표정을 기초로 컨텐츠를 분류하고, 검색하며, 추천하는 서비스를 제공할 수 있다. 이러한 서비스는 사용자에게 새로운 사용자경험(UX)을 제공할 수 있다. 따라서 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

100: 인식부 110: 기본표정인식기
120: 표정근육인식기 130: 랜드마크인식기
200: 제어부 210: 표정처리부
220: 컨텐츠처리부

Claims

동영상 컨텐츠가 입력되는 입력부;
상기 입력부로부터 상기 동영상 컨텐츠가 입력되면, 상기 동영상 컨텐츠에서 특정인이 등장하는 장면의 구간을 복수의 등장장면구간으로 구분하고, 상기 등장장면구간 별로 추출되는 복수의 얼굴 이미지 각각의 표정벡터를 벡터 도메인에 사상하여 복수의 얼굴 이미지 각각의 특정 표정을 도출하고, 상기 등장장면구간 별로 가장 많이 도출된 특정 표정을 해당 등장장면구간의 특정 표정으로 결정하고, 특정 인물 및 특정 인물의 표정별로 복수의 등장장면구간 별로 상기 동영상 컨텐츠의 복수의 등장장면구간을 구분하는 컨텐츠 처리부;
복수의 기본 표정을 기초로 벡터 도메인 상에서 특정인의 적어도 하나의 고유의 표정을 나타내는 특정 표정을 정의하는 표정처리부; 를 포함하고,
상기 복수의 기본 표정을 인식할 수 있도록 기본표정인식기를 학습시키고, 상기 기본표정인식기를 통해 상기 복수의 기본 표정을 기초로 특정인의 얼굴 이미지로부터 표정벡터를 추출하되, 상기 복수의 특정인의 복수의 얼굴 이미지를 상기 기본표정인식기에 입력하여 상기 기본표정인식기가 출력하는 상기 복수의 기본 표정 각각의 확률값을 상기 표정벡터로 추출하는 것을 특징으로 하는 표정 기반 장면 구분 장치.
삭제
제1항에 있어서,
상기 표정처리부는,
상기 추출된 표정벡터를 벡터 도메인 상에 사상하고, 상기 벡터 도메인 상에 사상된 표정벡터를 클러스터링하여 표정벡터그룹을 생성하고, 상기 표정벡터그룹을 상기 특정 표정으로 정의하는 것을 특징으로 하는 표정 기반 장면 구분 장치.
삭제
컨텐츠처리부가 동영상 컨텐츠가 입력되면, 입력된 동영상 컨텐츠에서 특정인이 등장하는 장면의 구간을 복수의 등장장면구간으로 구분하는 단계;
상기 컨텐츠처리부가 등장장면구간 별로 추출되는 복수의 얼굴 이미지 각각의 표정벡터를 벡터 도메인에 사상하여 복수의 얼굴 이미지 각각의 특정 표정을 도출하는 단계;
표정처리부가 복수의 기본 표정을 기초로 벡터 도메인 상에서 특정인의 적어 도 하나의 고유의 표정을 나타내는 특정 표정을 정의하는 단계;
상기 컨텐츠처리부가 상기 등장장면구간 별로 가장 많이 도출된 특정 표정을 해당 등장장면구간의 특정 표정으로 결정하는 단계;
상기 컨텐츠처리부가 특정 인물 및 특정 인물의 표정별로 복수의 등장장면구간 별로 상기 동영상 컨텐츠의 복수의 등장장면구간을 구분하는 단계; 를 포함하고,
상기 특정 표정을 정의하는 단계는,
상기 표정처리부가 상기 복수의 기본 표정을 인식할 수 있도록 기본표정인식기를 학습시키는 단계;
상기 표정처리부가 상기 기본표정인식기를 통해 상기 복수의 기본 표정을 기초로 특정인의 얼굴 이미지로부터 표정벡터를 추출하는 단계; 를 포함하고,
상기 표정벡터를 추출하는 단계는,
상기 표정처리부가 상기 복수의 특정인의 복수의 얼굴 이미지를 상기 기본표 정인식기에 입력하여 상기 기본표정인식기가 출력하는 상기 복수의 기본 표정 각각의 확률값을 상기 표정벡터로 추출하는 단계;
를 포함하는 것을 특징으로 하는 표정 기반 장면 구분 방법.
삭제
제5항에 있어서,
상기 특정 표정을 정의하는 단계는,
상기 추출된 표정벡터를 벡터 도메인 상에 사상하는 단계;
상기 벡터 도메인 상에 사상된 표정벡터를 클러스터링하여 표정벡터그룹을 생성하는 단계; 및
상기 표정벡터그룹을 상기 특정 표정으로 정의하는 단계;
를 더 포함하는 것을 특징으로 하는 표정 기반 장면 구분 방법.
삭제
제5항 및 제7항 중 어느 한 항에 따른 표정 기반 장면 구분 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.