KR102457498B1

KR102457498B1 - 미세 표정을 이용하여 진위성을 결정하기 위한 컴퓨터 시스템 및 방법

Info

Publication number: KR102457498B1
Application number: KR1020210184916A
Authority: KR
Inventors: 샤오준 황
Original assignee: 쿠팡 주식회사
Priority date: 2019-04-12
Filing date: 2021-12-22
Publication date: 2022-10-21
Also published as: KR20210158376A; WO2020208470A1; JP6937440B2; PH12020551830A1; SG11202011490TA; JP2021517287A; TWI724861B; US20210264011A1; AU2020260429B2; US10423773B1; KR20200120457A; TW202044066A; TWI773180B; TW202134906A; US11494477B2; US11030294B2; KR102343777B1; AU2020260429A1; AU2021202492A1; US20200327213A1

Abstract

휴먼 사용자의 진위성을 계산하기 위한 시스템 및 방법이 제공된다. 하나의 방법은, 네트워크를 통해서, 사용자 디바이스와 연결을 인스턴스화하는 요청을 수신하고; 네트워크를 통해서, 사용자 디바이스에 제1 질문을 제공하고; 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고; 제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산하고; 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여: 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는 휴먼 사용자의 진위성을 결정하고, 결정된 진위성을 이용하여 전자적 요청에 대해 결정을 내리는 것을 포함한다.

Description

미세 표정을 이용하여 진위성을 결정하기 위한 컴퓨터 시스템 및 방법{COMPUTERIZED SYSTEMS AND METHODS FOR DETERMINING AUTHENTICITY USING MICRO EXPRESSIONS}

본 개시는 일반적으로 진위성을 결정하기 위한 컴퓨터 시스템 및 방법에 관한 것이다. 특히, 본 개시의 실시예는 휴먼 사용자의 미세 표정을 이용하여 진위성을 결정하기 위한 창의적이고 독특한 시스템에 관한 것이다.

인터넷이 더 널리 퍼져감에 따라, 전자 거래는 대면적 거래를 대체해왔다. 전자 거래의 타입은, 아이템 구매 및 대출을 포함해서, 다양할 수 있다. 대면적 상호 작용 없이 거래 파트너의 진위성을 결정하는 것은 어렵기 때문에, 사기를 검출하기 위한 다양한 방법이 존재한다.

그러나, 진위성을 결정하기 위한 종래의 방법은, 사실상, 형식적이다. 그것들은 거래 혹은 신용 기록을 이용하여 신청자의 신용을 평가하며, 따라서 신청자와 관련되는 소규모의 데이터 세트로 한정된다. 게다가, 거래 혹은 신용 기록은 조작될 수 있다. 그래서, 그 결정은 부정확할 수 있다. 이러한 이유로 인해, 종래의 방법은 흔히 그 거래와 관여하는 사람과 대면적 상호 작용 또는 전화 통화를 요구한다. 그러나, 이렇게 함으로써, 거래의 비용은 증가하고, 처리는 지연된다. 그러므로, 전자적인 방식으로 진위성을 정확히 결정하기 위한 향상된 시스템 및 방법이 요구된다.

본 개시의 일 형태는 휴먼 사용자의 진위성을 계산하기 위한 방법에 관한 것이다. 방법은 적어도 하나의 프로세서를 가지는 디바이스에 의해 수행될 수 있다. 방법은 사용자 디바이스로부터의 전자적 요청을, 네트워크를 통해서, 수신하는 것을 포함할 수 있다. 그 요청은 사용자 디바이스와 비디오 연결을 인스턴스화한다. 방법은 질문 데이터베이스를 이용하여, 그 요청에 관한 제1 질문을 생성하는 것을 포함할 수 있다. 방법은 사용자 디바이스에 생성된 질문을, 네트워크를 통해서, 제공하는 것을 포함할 수 있다. 방법은 그 연결을 통해 수신된 비디오 및 오디오 데이터를 분석하는 것을 포함할 수 있다. 그 분석은 비디오 데이터로부터 복수의 얼굴 표정을 추출하는 것을 포함한다. 방법은 제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산하는 것을 포함할 수 있다. 방법은 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하는 것을 포함할 수 있다. 방법은 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것을 포함할 수 있다. 방법은, 후보 감정 데이터가 하나 이상의 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여, 제1 및 제2 데이터와 통합하기 위해 추가 데이터를 수집하도록 제2 질문을 생성하거나, 또는 사용자의 진위성을 결정하고 결정된 진위성을 이용하여 사용자 요청에 대해 결정을 내리는 것을 포함할 수 있다.

본 개시의 다른 형태는 휴먼 사용자의 진위성을 계산하기 위한 컴퓨터 시스템에 관한 것이다. 그 시스템은 적어도 하나의 프로세서 및 명령을 저장하는 적어도 하나의 메모리를 포함할 수 있다. 시스템은 사용자 디바이스로부터의 전자적 요청을, 네트워크를 통해서, 수신할 수 있다. 그 요청은 사용자 디바이스와 비디오 연결을 인스턴스화한다. 시스템은 질문 데이터베이스를 이용하여, 그 요청에 관한 제1 질문을 생성할 수 있다. 시스템은 사용자 디바이스에 생성된 질문을, 네트워크를 통해서, 제공할 수 있다. 시스템은 그 연결을 통해 수신된 비디오 및 오디오 데이터를 분석할 수 있다. 그 분석은 비디오 데이터로부터 복수의 얼굴 표정을 추출하는 것을 포함한다. 시스템은 제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산할 수 있다. 시스템은 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성할 수 있다. 시스템은 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정할 수 있다. 시스템은, 후보 감정 데이터가 하나 이상의 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여, 제1 및 제2 데이터와 통합하기 위해 추가 데이터를 수집하도록 제2 질문을 생성하거나, 또는 사용자의 진위성을 결정하고 결정된 진위성을 이용하여 사용자 요청에 대해 결정을 내릴 수 있다.

본 개시의 또 다른 형태는 휴먼 사용자의 진위성을 계산하기 위한 방법에 관한 것이다. 그 방법은 적어도 하나의 프로세서를 가지는 디바이스에 의해 수행될 수 있다. 방법은 사용자 디바이스로부터의 전자적 요청을, 네트워크를 통해서, 수신하는 것을 포함할 수 있다. 그 요청은 사용자 디바이스와 비디오 연결을 인스턴스화한다. 방법은 질문 데이터베이스를 이용하여, 그 요청에 관한 제1 질문을 생성하는 것을 포함할 수 있다. 방법은 사용자 디바이스에 생성된 질문을, 네트워크를 통해서, 제공하는 것을 포함할 수 있다. 방법은 그 연결을 통해 수신된 비디오 및 오디오 데이터를 분석하는 것을 포함할 수 있다. 그 분석은 비디오 데이터로부터 복수의 얼굴 표정을 추출하는 것을 포함한다. 방법은, 공간적 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 시간적 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오에 기초하여 미리 결정된 감정 중 하나 이상에 대응하는 제2 데이터를 계산하는 것을 포함할 수 있다. 방법은 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하는 것을 포함할 수 있다. 방법은 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것을 포함할 수 있다. 방법은, 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여, 제1 및 제2 데이터와 통합하기 위해 추가 데이터를 수집하도록 제2 질문을 생성하거나, 또는 사용자의 진위성을 결정하고 결정된 진위성을 이용하여 사용자 요청에 대해 결정을 내리는 것을 포함할 수 있다.

본 개시의 또 다른 형태는 휴먼 사용자의 진위성을 계산하기 위한 방법에 관한 것이다. 이 방법은 적어도 하나의 프로세서를 가지는 디바이스에 의해 수행될 수 있다. 이 방법은 네트워크를 통해서, 사용자 디바이스와 연결을 인스턴스화하는 요청을 수신하고; 네트워크를 통해서, 사용자 디바이스에 제1 질문을 제공하고; 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고; 제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산하고; 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여: 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는 휴먼 사용자의 진위성을 결정하고, 결정된 진위성을 이용하여 전자적 요청에 대해 결정을 내리는 것을 포함할 수 있다.

본 개시의 또 다른 형태는 휴먼 사용자의 진위성을 계산하기 위한 컴퓨터 시스템에 관한 것이다. 이 시스템은 적어도 하나의 프로세서 및 명령을 저장하는 적어도 하나의 메모리를 포함할 수 있다. 명령은 적어도 하나의 프로세서가: 네트워크를 통해서, 사용자 디바이스와 비디오 연결을 인스턴스화하는 요청을 수신하고; 네트워크를 통해서, 사용자 디바이스에 제1 질문을 제공하고; 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고; 제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산하고; 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여: 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는 휴먼 사용자의 진위성을 결정하고, 결정된 진위성을 이용하여 사용자 요청에 대해 결정을 내리게 할 수 있다.

본 개시의 또 다른 형태는 대출 신청자의 진위성을 계산하기 위한 방법에 관한 것이다. 이 방법은 적어도 하나의 프로세서를 가지는 디바이스에 의해 수행될 수 있다. 이 방법은 네트워크를 통해서, 사용자 디바이스와 비디오 연결을 인스턴스화하는 요청을 수신하고; 네트워크를 통해서, 사용자 디바이스에 제1 질문을 제공하고; 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고; 공간적 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 시간적 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오에 기초하여 미리 결정된 감정 중 하나 이상에 대응하는 제2 데이터를 계산하고; 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고; 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여: 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는 대출 신청자의 진위성을 결정하고, 결정된 진위성을 이용하여 전자적 요청에 대해 결정을 내리는 것을 포함할 수 있다.

또한 다른 시스템, 방법, 및 컴퓨터 판독 가능 매체가 여기서 논의된다.

도 1은 개시된 실시예에 따른, 속임수 검출 시스템(DDS; deception detection system)과 통신하는 디바이스의 예시적인 네트워크를 나타내는 도면이다.
도 2는 개시된 실시예에 따른, 딥러닝 알고리즘 엔진(DLAE; deep learning algorithm engine)에 의해 수행되는 예시적인 방법의 플로차트이다.
도 3a는 개시된 실시예에 따른, 클라이언트 동작에 대해서 DDS에 의해 수행되는 예시적인 기능을 나타내는 도면이다.
도 3b는 개시된 실시예에 따른, 서버 동작에 대해서 DDS에 의해 수행되는 예시적인 기능을 나타내는 도면이다.
도 4는 개시된 실시예에 따른, 진위성을 결정하기 위한 예시적인 방법의 플로차트이다.

이어서 첨부된 도면을 참조하여 자세하게 설명된다. 가능하면, 다음의 설명에서 같거나 유사한 부분에 대해 참조되도록 도면에서 같은 도면 부호가 사용된다. 여기에 몇몇 예시적인 실시예가 설명되지만, 변경, 조정 및 다른 구현도 가능하다. 예를 들면, 도면 내의 구성 및 스텝에 대해 교체, 추가, 또는 변경이 이루어질 수 있고, 여기에 설명된 예시적인 방법은 개시된 방법에 대해 스텝을 교체, 순서 변경, 제거 또는 추가함으로써 변경될 수 있다. 따라서, 다음의 자세한 설명은 개시된 실시예 및 예시로 제한되는 것은 아니다. 대신에 본 발명의 적절한 범위는 청구범위에 의해 규정된다.

본 개시의 실시예는 휴먼 사용자의 진위성을 결정하기 위해 구성된 시스템 및 방법에 관한 것이다. 개시된 실시예는 바람직하게는 전자적인 방식으로 미세 표정을 이용하여 진위성을 결정할 수 있다. 미세 표정은 자기도 모르게 하는 순식간의 얼굴의 움직임을 포함할 수 있으며, 그것은 아주 잠깐동안만 지속된다. 미세 표정은 또한 미세 눈 움직임 또는 발언시의 미세 떨림을 포함할 수 있다. 그것들은 미세하고 억제하고 숨기는 것이 거의 불가능하다. 사람들이 숨기려고 애쓰는 미세 표정은 감정을 드러낼 수 있기 때문에, 미세 표정을 알아보는 것은 사용자의 진위성을 결정하는 데 도움을 줄 수 있다.

하나의 구현으로서, 사용자 디바이스는 서버에 전자적 요청을 보낼 수 있다. 요청시, 서버는 사용자에 대한 하나 이상의 질문을 생성할 수 있다. 사용자 디바이스는 생성된 질문을 수신하고 사용자에게 질문을 표시할 수 있다. 사용자 디바이스는 사용자로부터 응답을 받고, 딥러닝 알고리즘 엔진(DLAE)에 응답을 보낼 수 있다. DLAE는 두 개의 콘볼루션 신경망(CNN; convolutional neural network)을 이용하여 사용자가 제공하는 응답을 분석할 수 있다. CNN은 뇌가 시각 정보를 처리하는 부분인 시각 피질의 반응을 에뮬레이트하도록 설계된, 다층 퍼셉트론의 생체 모방 변형이다. 두 CNN으로부터의 결과는 사용자의 미세 표정과 연관되는 감정을 예측하는 단일의 분류기에 통합된다. 감정이 결정되지 않는 경우, 서버는 감정이 결정될 때까지 질문을 더 생성한다. 감정이 결정될 때, 사용자의 진위성은 결정된 감정을 이용하여 결정될 수 있다. 사용자의 응답은 시스템(예로써, 데이터베이스)에서 분석되고 저장된다.

일부 실시예에서, 사용자는 대출 신청자일 수 있고, 기술된 시스템은 은행과 같은 금융기관에 의해 사용될 수 있다. 사용자가 대출 신청자인 경우, 시스템은 두 CNN을 이용하여 신청자의 응답을 분석함으로써 신청자의 진위성을 결정할 수 있다. 두 CNN은 공간적 CNN 및 시간적 CNN을 포함할 수 있다. 두 CNN으로부터의 결과는 신청자의 미세 표정과 연관되는 감정을 예측하는 단일의 분류기에 통합된다. 본 시스템 및 방법은, 전체 프로세스를 전자적으로 처리하여, 신청자의 진위성을 효율적이고 정확하게 결정할 수 있다.

도 1을 참조하면, 속임수 검출 시스템(DDS)(110)과 통신하는 디바이스의 예시적인 네트워크가 도시된다. 도 1에 도시되는 바와 같이, DDS(110)는 네트워크(100)를 통하여 딥러닝 알고리즘 엔진(DLAE)(120) 및 사용자 디바이스(130A-130C)와 통신할 수 있다. 일부 실시예에서, DDS(110)는 직접 접속을 통해서, 예를 들면 케이블을 이용하여, DLAE(120) 또는 사용자 디바이스와 통신할 수 있다.

일부 실시예에서, DDS(110)는, 사용자의 진위성을 결정하는 컴퓨터 시스템으로서 구현될 수 있다. DDS(110)는 단일 컴퓨터를 포함할 수 있고, 또는 개시된 예시들과 연관된 프로세스 및 기능 중 하나 이상을 수행하도록 상호 운용되는 다수의 컴퓨터를 포함하는 분산 컴퓨터 시스템으로서 구성될 수 있다. 일부 실시에에서, DDS(110)는, 사용자 디바이스(130A-130C)로부터 전자적 요청을 받을 때, 사용자(140)에게 물어볼 질문을 생성한다.

도 1에 도시되는 바와 같이, DDS(110)는 프로세서(112) 및 데이터베이스(114)를 포함할 수 있다. 프로세서(112)는, 인텔(등록상표)에 의해 제조된 펜티엄(등록상표) 계열 또는 AMD(등록상표)에 의해 제조된 튜리온(등록상표) 계열의 마이크로프로세서와 같이, 하나 이상의 알려진 처리 장치일 수 있다. 프로세서(112)는 단일 코어 혹은 동시에 병렬 프로세스를 실행하는 다중 코어 프로세서로 구성될 수 있다. 예를 들면, 프로세서(112)는 다중 프로세스를 동시에 실행하고 제어하는 논리 프로세서를 사용할 수 있다. 프로세서(112)는 다수의 소프트웨어 프로세스, 애플리케이션, 프로그램 등을 실행, 제어, 작동, 조작, 저장 등을 하는 능력을, 제공하기 위해 가상 머신 기술이나 다른 알려진 기술을 구현할 수 있다. 또 다른 예에서, 프로세서(112)는 DDS(110)가 동시에 다중 프로세스를 실행하게 할 수 있도록 병렬 처리 기능을 제공하기 위해 구성된 다중 코어 프로세서 구성을 포함할 수 있다. 당해 기술분야의 통상의 기술자는, 다른 타입의 프로세서 구성이 여기서 개시된 능력을 제공하도록 구현될 수 있다는 것을 이해할 것이다.

도 1에 도시되지 않았지만, DDS(110)는 메모리를 포함할 수 있다. 메모리는 프로세서(112)에 의해 실행될 때 알려진 운영 체제 기능을 수행하는 하나 이상의 운영 체제를 저장할 수 있다. 일례로서, 운영 체제는 마이크로소프트 윈도즈, 유닉스, 리눅스, 안드로이드, 맥 OS, iOS, 또는 다른 타입의 운영 체제를 포함할 수 있다. 따라서, 개시된 발명의 예시는 임의의 타입의 운영 체제로 작동하는 컴퓨터 시스템으로 동작하고 기능할 수 있다. 메모리는, 휘발성 혹은 비휘발성, 자기, 반도체, 테이프, 광학, 이동식, 고정형 또는 다른 타입의 저장 장치 혹은 유형(tangible)의 컴퓨터 판독가능 매체일 수 있다.

DDS(110)는 적어도 하나의 데이터베이스(114)를 포함할 수 있다. 데이터베이스(114)는 개시된 예시와 연관된 방법 및 프로세스를 수행하기 위해 프로세서(112)에 의해 이용될 수 있는 데이터를 저장할 수 있다. 데이터베이스(114)는 도 1에 도시된 바와 같이 DDS(110) 내에 위치될 수 있고, 또는 DDS(110) 외측에 위치된 외부 저장 디바이스 내에 존재할 수 있다. 데이터베이스(114) 내에 저장된 데이터는, 사용자에게 물어볼 잠재적인 질문에 관한 정보와 같이, 임의의 적합한 데이터를 포함할 수 있다. 질문은 임의의 사용자에게 물어볼 수 있는 일반적인 질문, 또는 DDS(110)와 상호 작용하는 사용자에게 맞춘 질문을 포함할 수 있다. 예시적인 질문은 "소득이 얼마나 됩니까", "직업이 무엇입니까", "현재 주소지에 얼마나 살았습니까", "전화번호는 어떻게 됩니까", 및 "주민등록번호가 어떻게 됩니까"를 포함할 수 있다.

딥러닝 알고리즘 엔진(DLAE)(120)은 도 1에 도시되는 바와 같이 DDS(110)의 외측에 위치될 수 있다. 대안으로, 또는 추가로, 일부 실시예에서, DLAE(120)는 DDS(110)의 내측에 위치될 수 있다. DLAE(120)는 두 CNN을 이용하여 사용자의 응답을 분석할 수 있다. 도 2에 대해서 아래에 논의되는 바와 같이, 일부 실시예에서, 두 CNN은 공간적 CNN(120A) 및 시간적 CNN(120B)을 포함할 수 있다. 공간적 CNN(120A) 및 시간적 CNN(120B)은 알려진 신경망, 예를 들면, VGG-16 및 ResNet 50일 수 있다.

공간적 CNN(120A)은 이미지 소스로부터 얼굴에 대해 사전 훈련될 수 있고, 시간적 CNN(120B)은 비디오 소스를 이용하여 사전 훈련될 수 있다. CNN은 각 감정에 대해 라벨링된 데이터를 가지는 데이터 세트를 이용하여 하나 이상의 미리 결정된 감정 그룹에 대해 훈련될 수 있다. 그런 데이터 세트의 하나의 알려진 예가 이미지 넷(ImageNet)이다. 이미지넷은 시각적 물체 인식 소프트웨어 연구에서 사용하기 위해 설계된 대규모 시각적 데이터 세트이다.

일부 실시예에서, 미리 결정된 감정은 임의의 수의 미리 결정된 감정 그룹을 포함할 수 있다. 예를 들면, 미리 결정된 감정 그룹은 행복, 놀라움, 메스꺼움, 및 억누름을 포함할 수 있다. 훈련된 CNN은 각 감정 그룹에 대해 확립된 그라운드 트루스(ground truth)를 가질 수 있다. 일부 실시예에서, CNN이 훈련된 후, 하나 이상의 추가 데이터 세트가 확립된 그라운드 트루스의 정확도를 체크하기 위해 사용될 수 있다. 그라운드 트루스는 사용자의 감정이 측정된 것에 기초하는 표준 감정이다. 예를 들면, 사용자의 미세 얼굴 표정이 행복에 대한 그라운드 트루스와 완벽하게 매칭되는 경우, 그때에 사용자는 100% 행복하다. 그러나, 사용자의 미세 표정이 행복에 대한 그라운드 트루스와 50%만 매칭되는 경우, 그때에 사용자는 50% 행복하다. 두 CNN으로부터의 결과는 사용자의 미세 표정과 연관된 감정을 예측하는 단일의 분류기에 통합된다.

일부 실시예에서, 비디오 및 오디오를 포함하는, 사용자의 묘사는, DLAE(120)가 그 묘사를 분석하기 전에 사전 처리될 수 있다. 일부 실시예에서, DLAE(120)는, DLAE(120)가 사용자를 나타내는 비디오를 수신한 후에, 비디오로부터 프레임을 추출할 수 있다. 추출 빈도는 미리 설정되게 된다. 일부 실시예에서, DLAE(120)는 수신된 비디오로부터 10초마다 프레임을 추출할 수 있다. 추출된 이미지는 공간적 CNN(120A) 및 시간적 CNN(120B)을 이용하여 분석될 수 있다.

위에서 설명한 바와 같이, 추출된 프레임을 이용하여, DLAE(120)는 사용자의 얼굴 표정이 각 감정 그룹에 대한 그라운드 트루스와 얼마나 유사한지 결정할 수 있다. 예를 들면, DLAE(120)는, 공간적 CNN(120A)을 이용하여, 추출된 프레임에서 눈, 눈썹, 코, 입 등의 위치와 움직임을 분석할 수 있다. 예를 들면, 프레임은, 확립된 그라운드 트루스와 비교하여, 사용자가 30% 불안함, 50% 억눌림, 70% 놀라움, 및 20% 행복한 것을 보여주는 사용자의 미세 표정을 포함할 수 있다. 분석된 결과는 시간적 CNN(120B)에 대한 입력으로서 이용될 수 있다. 시간적 CNN(120B)은 시간에 따른 사용자의 미세 표정의 변화를 분석할 수 있다. 일부 실시예에서, 시간적 CNN은 사용자의 머리 흔듬, 머리 끄덕임, 또는 미세 눈 움직임을 분석할 수 있다. 시간적 CNN(120B)은 또한 음성 미세 떨림을 인식할 수 있다.

공간적 CNN(120A) 및 시간적 CNN(120B)으로부터의 결과는 결합될 수 있다. 일부 실시예에서, DLAE(120)는, 두 결과를 결합하기 위해, 앙상블 방법, 즉, 다중 학습 알고리즘을 이용할 수 있다. 일부 실시예에서, 결합된 결과는 로지스틱 회귀 분석 모델을 이용하여 추가로 분석될 수 있다.

결합된 결과(120C)에 기초하여, DLAE(120)는 사용자의 진위성을 결정하는데 이용될 수 있는 사용자의 감정을 결정할 수 있다. 만일 감정이 결정되지 않는 경우, DDS(110)는 질문을 더 생성할 수 있다. 추가 질문에 대한 응답은 DLAE(120)에 의해 추가로 분석될 수 있다. DDS(110)는 사용자의 감정이 결정될 때까지 질문 생성을 계속할 수 있다.

DDS(110) 및 DLAE(120)는 태블릿(130A), 모바일 디바이스/PDA(130B), 컴퓨터(130C) 등과 같은 사용자 디바이스와 통신할 수 있다. 사용자 디바이스(130A-130C)는 디스플레이를 포함할 수 있다. 디스플레이는, 예를 들면, 액정 표시장치(LCD), 발광다이오드 스크린(LED), 유기 발광다이오드 스크린(OLED), 터치스크린 및 다른 알려진 표시 장치를 포함할 수 있다. 디스플레이는 사용자에게 다양한 정보를 보여줄 수 있다. 예를 들면, 디스플레이는 서버에 의해 생성된 질문 또는 DLAE(120)에 의해 결정된 결과를 표시할 수 있다.

사용자 디바이스(130A-130C)는 하나 이상의 입/출력(I/O) 디바이스를 포함할 수 있다. I/O 디바이스는 사용자 디바이스(130A-130C)가 사용자(140A-140C)나 다른 디바이스로부터의 정보를 전송하고 수신할 수 있게 하는 하나 이상의 디바이스를 포함할 수 있다. I/O 디바이스는, 다양한 입/출력 디바이스, 카메라, 마이크, 키보드, 마우스형 디바이스, 제스처 센서, 액션 센서, 물리 버튼, 음성(oratory) 입력 등을 포함할 수 있다. 예를 들면, 사용자는 사용자 디바이스(130A-130C)의 카메라와 마이크를 통해 DDS(110)에 사용자의 얼굴의 비디오를 제공할 수 있다. 또한 I/O 디바이스는, 예를 들면, 사용자 디바이스(130A-130C)와 네트워크(100) 간에 유선 또는 무선 연결을 확립함으로써, DDS(110)로부터의 정보를 전송하고 수신하기 위한, 하나 이상의 통신 모듈(미도시)을 포함할 수 있다.

사용자 디바이스(130A-130C)는 비디오 카메라를 포함할 수 있고, 또는 원격 비디오 카메라와 연결될 수 있다. 사용자 디바이스(130A-130C)는 DDS(110)에 비디오 및 오디오 신호를 전송할 수 있다. 일부 실시예에서, 비디오 및 오디오 신호는, 예를 들면, MPEG-4, MPEG-2, 무손실 코덱, 또는 다른 코덱을 포함하는 코덱을 이용하여 압축될 수 있다. 일부 실시예에서, 그 신호는 MPEG-4 및 MPEG-2를 이용하여 압축될 수 있다. 일부 실시예에서, 비디오 및 오디오 신호는 다른 코덱을 이용하여 개별로 인코딩 및/또는 압축될 수 있다.

사용자(140A-140C)는 DDS(110)에 전자적 요청을 제공하는 임의의 사람일 수 있다. 일부 실시예에서, 사용자(140A-140C)는 대출 신청자일 수 있다. 어떤 경우에, DDS는 은행 및 신용 조합과 같은 금융 기관에 의해 이용될 수 있다. 사용자(140A-140C)는 DDS(110)로부터 질문을 수신하고 DDS(110)에 응답을 제공하도록 사용자 디바이스(130A-130C)를 이용할 수 있다. 신청자의 응답은 DLAE(120)에 의해 분석될 수 있다.

도 2는 개시된 실시예에 따른, 딥러닝 알고리즘 엔진(DLAE)에 의해 수행되는 예시적인 방법의 플로차트이다. DLAE(120)는 사용자 디바이스(130A-130C)를 통해 사용자(140A-140C)로부터 미가공(raw) 데이터(210)를 수신할 수 있다. 미가공 데이터(210)는 하나 이상의 질문에 대응한 사용자의 응답에 비디오 및/또는 음성을 포함할 수 있다. 상술한 바와 같이, 미가공 데이터(210)의 얼굴 표정 및 오디오가 두 콘볼루션 신경망(CNN)을 이용하여 분석될 수 있다.

CNN을 이용한 분석을 통해서, DLAE(120)는 미세 얼굴 표정, 미세 눈 움직임, 및 발언시 미세 떨림과 같이, 사용자의 미세 표정을 검출할 수 있다. 상술한 바와 같이, DLAE(120)는 공간적 CNN(120A) 및 시간적 CNN(120B)을 이용하여 사용자의 비디오 및/또는 오디오를 분석할 수 있다. 결합된 결과를 이용하여, DLAE(120)는 중간 결과(220)로서 감정을 결정할 수 있다. 중간 결과(220)는 미리 결정된 감정에 대한 확률 분포일 수 있다.

일부 실시예에서, 중간 결과는 사용자의 진위성을 결정하기 위해 이용될 수 있다. 진위성은 결정된 감정에 기초하여 점수가 매겨질 수 있다. 만일 점수가 임계값을 초과하면, 사용자는 정직하다고 여겨질 수 있고, 만일, 점수가 임계값 미만이면, 사용자는 정직하지 않다고 여겨질 수 있다.

도 3a는 DDS(110)의 클라이언트측의 예시적인 모듈을 나타낸다. 이들 모듈은 클라이언트 상호 작용에 대해서 DDS(110)에 의해 수행되는 기능을 예시한다. 클라이언트측과 서버측 간의 분할은 예시 목적이며, 그 분할이 모든 실시예에 요구되는 것은 아니다. DDS(110)의 클라이언트측은 문제 기반 상호 작용 모듈(300), 오디오 및 비디오 취득 모듈(310), 및 오디오 및 비디오 특징 추출 모듈(320)을 포함할 수 있다. 문제 기반 상호 작용 모듈(300)은 질문 생성 모듈(302), 질문 선택 모듈(304), 질의 결정 모듈(306), 및 문제 힌트 모듈(308)을 포함할 수 있다.

질문 생성 모듈(302)은 사용자 디바이스(130A-130C)로부터 전자적 요청을 수신하면 질문을 생성할 수 있다. 질문 선택 모듈(304)은 사용자(140)에게 물어볼 하나 이상의 질문을 선택할 수 있다. 일부 실시예에서, 질문을 생성하고 물어보는 것은, 예를 들면, 텍스트 질문을 표시하거나, 텍스트 음성 변환 모듈을 이용하여 전자적으로 행해질 수 있다.

질문 선택 모듈(304)은, 사용자에게 물어볼 수 있는 잠재적인 질문을 포함하는, 적절한 데이터 세트를 저장하는 데이터베이스(114)를 이용할 수 있다. 예를 들면, 데이터베이스(114)는 사용자의 수입, 직업, 주소, 전화번호 또는 ID와 관련되는 잠재적인 질문을 포함할 수 있다. 사용자(140A-140C)에 대한 질문을 선택할 때, 질문 선택 모듈(304)은, 하나 이상의 이전 질문에 대한 사용자의 이전 응답을 포함하는, 사용자가 제공한 임의의 정보를 고려할 수 있다. 일부 실시예에서, 질문에 대한 사용자의 응답이 애매모호한 경우, 질문 선택 모듈(304)은 질문에 대한 응답을 명확히 하기 위해 다음 질문을 선택할 수 있다. 일부 실시예에서, 질문 선택 모듈(304)은 생성된 질문을 그 중요성 및 필요성에 따라서 순위를 매길 수 있다.

질의 결정 모듈(306)은 DDS(110)가 사용자의 감정을 결정하기 위해 추가 질문을 요청할 필요가 있는지를 결정할 수 있다. 예를 들면, 하나 이상의 사용자의 이전 응답의 분석 결과가 사용자의 감정을 결정하는데 충분하지 않으면, 질의 결정 모듈(306)은 추가 질문이 요구된다고 DDS(110)에 신호를 보낼 수 있다.

문제 힌트 모듈(308)은, 사용자의 응답이 기대 이상으로 여러 예상된 잠재적인 응답으로부터 벗어나는 경우, 사용자(140A-140C)에게 하나 이상의 힌트를 제공할 수 있다. 일부 실시예에서, 문제 힌트 모듈(308)은 현재 질문에 대한 적절한 응답을 제시하도록 기능할 수 있다. 예를 들면, DDS(110)는 대출 신청자에게, "당신은 매달 어느 날에 대출에 대한 분납금을 지불할 것입니까?"라고 물어볼 수 있다. 사용자는 그 질문을 잘못 이해하여, "수요일"이라고 응답할 수 있다. 그런 경우에, DDS(110)는 문제 힌트(308)를 제공하여, "매달 몇일입니까?"라고 물어볼 수 있다.

오디오 및 비디오 취득 모듈(310)은 오디오/비디오 코딩 모듈(312) 및 저장 및 업로드 서버 모듈(314)을 포함할 수 있다. 오디오/비디오 코딩 모듈(312)은 사용자 디바이스(130A-130C)로부터 수신된 미가공 데이터를, DDS(110)에 저장되고 업로드되기 전에, 인코딩할 수 있다. 그 코딩은 DDS(110) 및/또는 DLAE(120)에 의해 접속, 변경, 또는 분석될 수 있는 다른 포맷으로 미가공 데이터(210)를 바꿀 수 있다. 상술한 바와 같이, 코덱은 MPEG-4, MPEG-2, 무손실 코덱, 또는 다른 코덱을 포함할 수 있다. 저장 및 업로드 서버 모듈(314)은 DDS(110)에 인코딩된 미가공 데이터를 저장할 수 있다.

사용자의 오디오 및 비디오가 DDS(110)에 저장되고 업로드된 후에, 오디오 및 비디오 특징이 추출될 수 있다. 오디오 및 비디오 특징 추출 모듈(320)은 오디오 특징 모듈(322), 비디오 특징 모듈(324), 및 특징 데이터 업로딩 서버 모듈(326)을 포함할 수 있다. 일부 실시예에서, 오디오 특징 모듈(332)은 오디오 데이터를 추출할 수 있고, 비디오 특징 모듈(324)은 비디오 데이터를 추출할 수 있다. 추출은 미리 설정된 빈도로 이루어질 수 있다. 예를 들면, 오디오 특징 모듈(322) 및 비디오 특징 모듈(324)은 수신된 비디오로부터 10초마다 오디오 및/또는 프레임을 추출할 수 있다. 추출된 이미지는 공간적 CNN(120A) 및 시간적 CNN(120B)을 이용하여 분석될 수 있다.

도 3b는 DDS(110)의 서버측의 예시적인 모듈을 나타낸다. 이들 모듈은, DLAE(120)와 같은, 시스템 간의 내부 상호 작용에 대해서 DDS(110)에 의해 수행되는 기능을 예시한다. 상술한 바와 같이, 클라이언트측과 서버측 간의 분할은 예시 목적이며, 그 분할이 모든 실시예에 요구되는 것은 아니다. DDS(110)에서의 서버측 모듈은 스트리밍 미디어 모듈(330), 비즈니스 인터페이스 모듈(340), 오디오 및 비디오 분석 모듈(350), 및 모델 계산 모듈(360)을 포함할 수 있다.

스트리밍 미디어 모듈(330)은 리코딩 및 저장 모듈(332), 및 브로드캐스팅 모듈(334)을 포함할 수 있다. 오디오 및 비디오 특징 추출 모듈(320)을 통해 추출된 데이터는, 리코딩 및 저장 모듈(332)에 의해 브로드캐스팅을 위해 서버에 기록되고 저장될 수 있다. 서버는 도 3a에서 추출된 데이터를 저장하기 위해 이용된 서버와 같은 서버일 수 있지만, DDS(110)에 위치되는 다른 서버일 수도 있다. 일부 실시예에서, 서버는 DDS(110)의 외측에 위치될 수 있다. MPEG-4, MPEG-2, 무손실 코덱, 또는 다른 비디오 코덱과 같은, 코덱은, 오디오 및 비디오 데이터를 저장하기 위해 이용될 수 있다.

브로드캐스팅 모듈(334)은 리코딩 및 저장 모듈(332)에 의해 서버에 저장된 비디오 및 오디오 데이터를 브로드캐스팅할 수 있다. 상술한 바와 같이, 오디오 및 비디오는 브로드캐스팅되기 전에 사전 처리될 수 있다. 브로드캐스팅(334)됨으로써, 기록되고 저장된 오디오 및 비디오는 그것들의 픽셀 데이터 및 광학 흐름 데이터를 공간적 CNN(120A) 및 시간적 CNN(120B)에 보낼 수 있다.

비즈니스 인터페이스 모듈(340)은 문제 기반 논리 모듈(342) 및 비즈니스 시스템 모듈(344)을 포함할 수 있다. 일부 실시예에서, 비즈니스 인터페이스 모듈(340)은 비즈니스 시스템 모듈(344)와, DSS(110) 및/또는 DLAE(120) 간의 통신을 수행할 수 있다. 일부 실시예에서, 비즈니스 인터페이스 모듈(340)은 DLAE(120)를 비즈니스 시스템(344)에 연결하기 위한 소프트웨어 인터페이스이다. 소프트웨어 인터페이스는 통신하기 위해 애플리케이션이 이용하는 언어 및 코드일 수 있다.

비즈니스 시스템 모듈(344)은 DLAE(120)와 통신할 수 있고, DLAE(120)로부터 결정된 사용자의 진위성 데이터를 수신할 수 있다. 상술한 바와 같이, 진위성은 결정된 감정에 기초하여 점수가 매겨질 수 있다. 일부 실시예에서, 만일 점수가 임계값을 초과하면, 사용자는 정직하다고 여겨질 수 있다. 사용자의 결정된 진위성에 기초하여, 비즈니스 시스템 모듈(344)은 비즈니스 의사결정, 예를 들면, 대출 승인 또는 거절 결정을 할 수 있다.

문제 기반 논리 모듈(342)은 비즈니스 시스템 모듈(344)이 비즈니스 의사결정을 할 수 있게 도울 수 있다. 문제 기반 논리 모듈(342)은 사용자와 거래할 가치가 있는지를 결정하기 위해 사용자에 의해 제공된 사용자의 응답 또는 임의의 추가 정보를 분석할 수 있다. 예를 들면, 사용자가 사용자의 수입이 평균보다 훨씬 적거나, 및/또는, 사용자가 그의 연수입의 두 배 이상의 빚을 가지고 있다고 응답했을 경우, 비즈니스 시스템 모듈(344)은 그 사용자가 튼튼한 재정 능력을 가지지 않았다고 결정할 수 있고, 그것은 사용자와 거래할 가능성을 낮출 수 있다.

일부 실시예에서, 사용자는 대출 신청자일 수 있다. 그 실시예에서, 비즈니스 시스템 모듈(344)은 신청자의 결정된 진위성에 기초하여 대출 승인 결정을 할 수 있다. 비즈니스 인터페이스 모듈(340)을 통해, 비즈니스 시스템 모듈(344)은 DDS(110) 및/또는 DLAE(120)로부터 결정된 신청자의 진위성을 수신할 수 있다. 문제 기반 논리 모듈(342)은 신청자의 재정 능력을 평가하기 위해 대출 신청자의 응답 또는 제시된 대출 신청을 분석할 수 있다. 평가된 신청자의 재정 능력에 기초하여, 비즈니스 시스템 모듈(344)은 승인된 대출에 대한 금리를 추가로 결정할 수도 있다. 예를 들면, 비즈니스 시스템 모듈(344)은 더 좋은 재정 능력을 가진 자에게 낮은 금리를 결정할 수 있다.

오디오 및 비디오 분석 모듈(350)은 공간적 CNN(120A) 및 시간적 CNN(120B)을 이용하여 브로드캐스팅된 오디오 및 비디오 데이터를 분석할 수 있다. 오디오 및 비디오 분석 모듈(350)은 얼굴 특징 모듈(352) 및 성문(voiceprint) 특징 모듈(354)을 포함할 수 있다. 얼굴 특징 모듈(352)는 두 CNN인, 공간적 CNN(120A) 및 시간적 CNN(120B)을 이용하여 분석될 수 있다. 두 CNN으로부터의 결과는 사용자의 미세 표정과 연관되는 감정을 예측하는 단일의 결합된 결과(120C)로 통합된다. 성문 특징 모듈(354)은 시간적 CNN(120B)을 이용하여 브로드캐스팅된 오디오 데이터를 분석할 수 있다. 상술한 바와 같이, 시간적 CNN은 발언시 미세 떨림을 검출할 수 있다.

모델 계산 모듈(360)은 표정 분석 모듈(362) 및 성문 분석 모듈(364)을 포함할 수 있다. 표정 분석 모듈(362)은 얼굴 특징 모델(352)로부터 결과를 수신하고, 사용자의 얼굴 표정으로부터 나타난 사용자의 감정을 계산할 수 있다. 성문 분석 모듈(362)은 성문 특징(352)으로부터 결과를 수신하고, 사용자의 음성 떨림으로부터 나타난 사용자의 감정을 계산할 수 있다. 일부 실시예에서, 음성은 음성 데이터를 포함하는 데이터베이스를 이용하여 훈련되는, 하나 이상의 CNN을 이용하여 분석될 수 있다. 표정 분석 모듈(362)과 성문 분석 모듈(364)에서의 계산은 결합된다. 그 결합된 결과에 기초하여, 모델 계산 모듈(360)은 사용자의 감정을 결정할 수 있다.

도 4는 예시적인 속임수 검출 방법의 플로차트이다. 속임수 검출 방법은 사용자 디바이스(130A-130C), 속임수 검출 시스템(DDS)(110), 딥러닝 알고리즘 엔진(DLAE)(120), 및 데이터베이스(114)를 수반하는 스텝을 포함할 수 있다.

스텝 402에서, 사용자 디바이스(130A-130C)는 사용자(예로써, 도 1에서의 사용자(140A))에 대한 전자적 요청을 생성할 수 있다. 일부 실시예에서, 사용자(140A)는 대출 신청자일 수 있고, 전자적 요청은 신청자가 대출 신청을 제출할 때 생성될 수 있다. 스텝 412에서, DDS(110)는 그 요청을 수신하고, 사용자(140A-140C)에 대한 하나 이상의 질문을 생성할 수 있다. 질문은 사용자의 수입, 직업, 주소, 전화번호, 또는 ID와 관련될 수 있다. 스텝 404에서, 사용자 디바이스(130A-130C)는 DDS(110)로부터 생성된 질문을 수신하고, 그 질문을 사용자 디바이스(130A-130C)에 표시할 수 있다.

스텝 406에서, 사용자 디바이스(130A-130C)는 사용자(140A-140C)로부터 응답을 받고, 그 응답을 DLAE(120)에 전송할 수 있다. 스텝 422에서, DLAE(120)는 상술한 바와 같이 두 CNN을 이용하여 수신된 응답을 분석할 수 있다. 스텝 424에서, DLAE(120)는, 분석 결과를 이용하여, 사용자의 감정이 결정되는지(424)를 판단할 수 있다. DLAE(120)가 감정 검출에 대한 명확한 결과를 얻을 때, 그 감정은 결정된 것으로 여겨질 수 있다. 스텝 432에서, 분석 결과는 데이터베이스(114)에 저장되어, DDS(110)가 그 특징을 이용할 수 있다.

스텝 426에서, DLAE(120)는 사용자의 감정을 결정하고, 이것을 사용자 디바이스(130A-130C)로 전달한다. 도 3b에서 상술한 바와 같이, 결정된 감정은 DDS(110)가 사용자의 진위성을 계산하고, 최종적으로 비즈니스 의사결정을 하기 위해서 이용될 수 있다. 스텝 408에서, 사용자 디바이스(130A-130C)는 사용자의 전자적 요청에 반응하여 결정된 비즈니스 의사결정을 표시할 수 있다.

사용자의 감정이 스텝 424에서 결정되지 않는 경우, DLAE(120)는 추가 질문이 요구된다고 DDS(110)에 신호를 보낼 수 있다. 그래서, 스텝 412에서, DDS(110)는 하나 이상의 추가 질문을 생성할 수 있다. 상술한 바와 같이, 스텝 422에서, DLAE(120)는 사용자의 추가 응답을 분석할 수 있다. DDS(110)는 DLAE(120)가 사용자의 감정이 결정되었다고 판단할 때까지 추가 질문을 생성할 수 있다. 분석된 응답은 데이터베이스(114)에 저장될 수 있다. 상술한 바와 같이, DDS(110)는 적응 학습 능력을 가지고, 사용자와 상호 작용하고, 사용자로부터의 데이터를 더 저장할 수 있기 때문에 개선되며, 고객이 거짓말하고 있다는 것을 검출할 때 날카로운 질문을 생성할 수 있다.

본 개시는 그 특정 실시예를 참조하여 도시되고 설명되었지만, 본 개시는 다른 환경에서, 변경없이, 실시될 수 있음을 이해할 것이다. 전술한 설명은 예시의 목적으로 제시되었다. 그것은 개시된 정확한 형태나 실시예에 대해 총망라된 것이 아니며 이것으로 한정되는 것은 아니다. 개시된 실시예의 설명 및 실시를 고려하는 것으로부터 변경 및 조정이 통상의 기술자에게 명백할 것이다. 추가적으로, 비록 개시된 실시예의 형태가 메모리에 저장되는 것으로서 설명되었지만, 통상의 기술자는 이들 형태가 2차 저장 디바이스, 예를 들면, 하드디스크나 CD ROM, 또는 다른 형태의 RAM이나 ROM, USB 매체, DVD, 블루레이, 또는 다른 광 드라이브 매체와 같이, 다른 형태의 컴퓨터 판독 가능한 매체에 저장될 수도 있는 것을 이해할 것이다.

상술한 설명 및 개시된 방법에 기초한 컴퓨터 프로그램은 숙련된 개발자의 기술 내에 있다. 여러 프로그램 혹은 프로그램 모듈은 통상의 기술자에게 알려진 어느 기술을 이용하여 생성되거나, 또는 기존의 소프트웨어와 연결하여 설계될 수 있다. 예를 들면, 프로그램 섹션 혹은 프로그램 모듈은 닷넷 프레임워크, 닷넷 컴팩트 프레임워크(및 비주얼 베이식, C 등과 같은, 관련 언어), 자바, C++, 오브젝티브 C, HTML, HTML/AJAX 조합, XML, 또는 자바 애플릿이 포함된 HTML 내에서 혹은 그것들에 의해서 설계될 수 있다.

게다가, 여기에서는 예시적인 실시예가 설명되었지만, 본 개시에 기초하여 통상의 기술자가 이해할 수 있는 바와 같이, 일부 또는 모든 실시예의 범위는 동등한 요소, 변경, 생략, 조합(예로써, 여러 실시예에 걸치는 형태의 조합), 조정 및/또는 수정을 가질 수 있다. 청구범위 내의 제한 사항은 그 청구범위 내에 적용된 언어에 기초하여 폭넓게 이해되도록 하는 것이며, 응용의 수행 동안 혹은 본 명세서 내에 설명된 예시로 한정되는 것은 아니다. 그 예시는 비배타적으로 해석되도록 하기 위한 것이다. 추가로, 개시된 방법의 스텝은 어떤 다른 방법으로 변경되거나, 스텝을 재배열 및/또는 스텝을 삽입하거나 삭제하는 것을 포함할 수 있다. 그러므로, 설명 및 예시는 오직 예시적으로 고려되는 것이며, 진정한 범위 및 기술 사상은 다음의 청구범위 및 그 동등한 전체 범위에 의해 나타내지는 것으로 의도된다.

Claims

적어도 하나의 프로세서를 가지는 디바이스에 의해 수행되는, 휴먼 사용자의 진위성을 계산하기 위한 방법으로서,
네트워크를 통해서, 사용자 디바이스와 연결을 인스턴스화하는 요청을 수신하고;
상기 네트워크를 통해서, 상기 사용자 디바이스에 제1 질문을 제공하고;
상기 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고;
제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 상기 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산하고;
상기 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고;
상기 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고;
상기 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여:
상기 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는
상기 휴먼 사용자의 진위성을 결정하고, 상기 결정된 진위성을 이용하여 전자적 요청에 대해 결정을 내리는 것을 포함하는 방법.
청구항 1에 있어서,
상기 제1 콘볼루션 신경망은 공간적 콘볼루션 신경망을 포함하고, 상기 제2 콘볼루션 신경망은 시간적 콘볼루션 신경망을 포함하는 방법.
청구항 1에 있어서,
리소스 데이터베이스를 이용하여 상기 콘볼루션 신경망 중 적어도 하나를 훈련하는 것을 더 포함하며, 상기 리소스 데이터베이스는 상기 미리 결정된 감정의 그라운드 트루스(ground truth)를 확립하기 위해 라벨링된 얼굴 데이터를 포함하는 방법.
청구항 3에 있어서,
상기 리소스 데이터베이스를 정규화하고; 그리고
상기 정규화된 리소스 데이터베이스를 이용하여 시간적 콘볼루션 신경망 중 적어도 하나를 훈련하는 것을 더 포함하는 방법.
청구항 1에 있어서,
상기 두 개의 콘볼루션 신경망은 사용자의 미세 표정을 분석하는 방법.
청구항 2에 있어서,
상기 시간적 콘볼루션 신경망은 상기 오디오 데이터를 분석하는 방법.
청구항 1에 있어서,
상기 하나 이상의 미리 결정된 감정은 놀라움, 메스꺼움, 또는 억누름을 포함하는 방법.
청구항 1에 있어서,
상기 제2 질문을 생성하는 것은 적어도 상기 제1 질문에 대해 수신된 응답에 기초하는 방법.
청구항 1에 있어서,
상기 휴먼 사용자는 대출 신청자인 방법.
휴먼 사용자의 진위성을 계산하기 위한 컴퓨터 시스템으로서,
적어도 하나의 프로세서;
명령을 저장하는 적어도 하나의 메모리를 포함하며,
상기 명령은 상기 적어도 하나의 프로세서가:
네트워크를 통해서, 사용자 디바이스와 비디오 연결을 인스턴스화하는 요청을 수신하고;
상기 네트워크를 통해서, 상기 사용자 디바이스에 제1 질문을 제공하고;
상기 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고;
제1 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 제2 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오 데이터에 기초하여 상기 하나 이상의 미리 결정된 감정에 대응하는 제2 데이터를 계산하고;
상기 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고;
상기 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고;
상기 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여:
상기 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는
상기 휴먼 사용자의 진위성을 결정하고, 상기 결정된 진위성을 이용하여 사용자 요청에 대해 결정을 내리게 하는 컴퓨터 시스템.
청구항 10에 있어서,
상기 제1 콘볼루션 신경망은 공간적 콘볼루션 신경망을 포함하고, 상기 제2 콘볼루션 신경망은 시간적 콘볼루션 신경망을 포함하는 컴퓨터 시스템.
청구항 10에 있어서,
상기 명령은, 추가로, 상기 적어도 하나의 프로세서가, 리소스 데이터베이스를 이용하여 상기 콘볼루션 신경망 중 적어도 하나를 훈련하게 하며, 상기 리소스 데이터베이스는 상기 미리 결정된 감정의 그라운드 트루스를 확립하기 위해 라벨링된 얼굴 데이터를 포함하는 컴퓨터 시스템.
청구항 12에 있어서,
상기 명령은, 추가로, 상기 적어도 하나의 프로세서가:
상기 리소스 데이터베이스를 정규화하고; 그리고
상기 정규화된 리소스 데이터베이스를 이용하여 시간적 콘볼루션 신경망 중 적어도 하나를 훈련하게 하는 컴퓨터 시스템.
청구항 10에 있어서,
상기 두 개의 콘볼루션 신경망은 사용자의 미세 표정을 분석하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 시간적 콘볼루션 신경망은 상기 오디오 데이터를 분석하는 컴퓨터 시스템.
청구항 10에 있어서,
상기 하나 이상의 미리 결정된 감정은 놀라움, 메스꺼움, 또는 억누름을 포함하는 컴퓨터 시스템.
청구항 10에 있어서,
상기 제2 질문을 생성하는 것은 적어도 상기 제1 질문에 대해 수신된 응답에 기초하는 컴퓨터 시스템.
청구항 10에 있어서,
상기 휴먼 사용자는 대출 신청자인 컴퓨터 시스템.
청구항 10에 있어서,
상기 디바이스는 사용자에게 적어도 7개의 질문을 제공하는 컴퓨터 시스템.
적어도 하나의 프로세서를 가지는 디바이스에 의해 수행되는, 대출 신청자의 진위성을 계산하기 위한 방법으로서,
네트워크를 통해서, 사용자 디바이스와 비디오 연결을 인스턴스화하는 요청을 수신하고;
상기 네트워크를 통해서, 상기 사용자 디바이스에 제1 질문을 제공하고;
상기 연결을 통해 수신된 데이터로부터 복수의 얼굴 표정을 추출하고;
공간적 콘볼루션 신경망을 이용하여, 적어도 하나의 추출된 얼굴 표정에 기초하여 하나 이상의 미리 결정된 감정에 대응하는 제1 데이터를 계산하고, 시간적 콘볼루션 신경망을 이용하여, 적어도 두 개의 추출된 얼굴 표정과 오디오에 기초하여 상기 미리 결정된 감정 중 하나 이상에 대응하는 제2 데이터를 계산하고;
상기 제1 및 제2 데이터를 이용하여 후보 감정 데이터를 생성하고;
상기 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하고;
상기 후보 감정 데이터가 미리 결정된 감정을 예측하는지를 결정하는 것에 기초하여:
상기 제1 및 제2 데이터와 통합하기 위한 추가 데이터를 수집하도록 제2 질문을 생성하거나; 또는
상기 대출 신청자의 진위성을 결정하고, 상기 결정된 진위성을 이용하여 전자적 요청에 대해 결정을 내리는 것을 포함하는 방법.