KR101925440B1

KR101925440B1 - 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법

Info

Publication number: KR101925440B1
Application number: KR1020180046496A
Authority: KR
Inventors: 이정도
Original assignee: 이정도
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-12-05

Abstract

가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법이 제공되며, 사용자 단말로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속하는 단계, 사용자 단말에서 기 저장된 유명인과의 가상 화상 통화를 선택하는 경우, 선택된 유명인의 실사 모델링 데이터, 음성 복제 데이터, 및 얼굴 표정 변화 데이터를 로딩하는 단계, 사용자 단말에서 음성이 입력된 경우, 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 입력된 음성의 응답 텍스트와 얼굴 표정을 결정하는 단계, 및 결정된 응답 텍스트를 얼굴 표정을 통하여 실사 모델링 캐릭터가 발화하도록 제어하는 단계를 포함한다.

Description

가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법{METHOD FOR PROVIDING VR BASED LIVE VIDEO CHAT SERVICE USING CONVERSATIONAL AI}

본 발명은 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 관한 것으로, 유명인과 화상통화 또는 대화를 하는 것과 같은 실사를 이용한 대화형 에이전트를 제공하는 방법을 제공한다.

대화형 인공지능이란, 음성 혹은 문자를 통해 인간과의 대화를 시뮬레이션할 목적의 프로그램인데, 이러한 대화형 인공지능은 지능 획득 방법 및 정보 교환 방식에 따라 Q&A 시스템, 지능형 검색, 말동무, 개인 비서 등의 종류로 분류할 수 있다. 상용화된 대화형 인공지능들은 입력의 특정 단어나 어구를 검출하여 미리 준비된 응답을 출력하는데 초점이 맞춰져 있으며, 가장 많은 응용되는 비서형 인공지능은 최근 들어 스마트폰에 기본 사양으로 탑재되는 경우가 많다. 현재의 비서형 인공지능은 제조사에서 정한 캐릭터를 기반으로 하는 것이 대부분이다.

이때, 대화형 인공지능은 가상 캐릭터가 가상공간에서 사용자와 커뮤니케이션하도록 하고, 사용자에게 맞는 대화상대를 자동으로 선정하여 연결하는 방법으로 개발되었는데, 이와 관련하여, 선행기술인 한국공개특허 제2007-0024918호(2007년03월08일 공개) 및 한국공개특허 제2018-0001155호(2018년01월04일 공개)에는 사용자의 선택에 따라 사용자 단말기에 사용자의 가상 캐릭터가 플레이하기 위한 시나리오 형태의 가상 공간을 제공하고, 사용자의 가상 캐릭터의 주변 부위에 인터페이스를 배치하고, 사용자의 화상을 해당 인터페이스에 제공하여, 다수의 사용자간 실시간으로 화상 회의 방식으로 대화를 수행하는 구성, 온라인 채팅에서 사용자에게 맞는 대화상대를 자동으로 선정해서 연결하는 빅데이터를 이용한 인공지능의 온라인 채팅 대화상대 자동맞춤 방법을 개시한다.

다만, 대화형 에이전트는, 하나의 문장을 기본단위로 학습하고 처리하는 방식을 취하기 때문에 연속대화를 처리할 수 없고, 대화 상황에 대한 이해보다는 정의된 기능 수행을 중심으로 진행되기 때문에 사전에 정의되지 않은 질문에는 답변이 불가능하며, 인공지능 스스로의 감정을 생성하고 표현할 수 없다. 이에, 사람과의 깊은 소통을 위해서는 대화의 전후 상황을 이해하고, 이를 토대로 자신의 감정 상태를 변화시킬 줄 알며, 주관적인 감정과 의견을 드러낼 줄 아는 대화형 인공지능의 개발이 요구되고 있다.

본 발명의 일 실시예는, 복수의 유명인을 대화형 에이전트의 실사 캐릭터로 설정하고, 유명인의 말투와 표정 등을 학습하여 감정과 대화 모델을 세분화하고, 사용자가 유명인을 선택한 경우, 모델링 및 학습된 대화패턴을 이용하여 사용자의 얼굴표정, 음성 및 텍스트로 분석된 감정으로부터 응답 텍스트를 출력하고, 대화의 전후 상황을 이해하고, 이를 토대로 자신의 감정 상태를 변화시킬 줄 알며, 주관적인 감정과 의견을 드러낼 수 있는, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 사용자 단말로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속하는 단계, 사용자 단말에서 기 저장된 유명인과의 가상 화상 통화를 선택하는 경우, 선택된 유명인의 실사 모델링 데이터, 음성 복제 데이터, 및 얼굴 표정 변화 데이터를 로딩하는 단계, 사용자 단말에서 음성이 입력된 경우, 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 입력된 음성의 응답 텍스트와 얼굴 표정을 결정하는 단계, 및 결정된 응답 텍스트를 얼굴 표정을 통하여 실사 모델링 캐릭터가 발화하도록 제어하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 복수의 유명인을 대화형 에이전트의 실사 캐릭터로 설정하고, 유명인의 말투와 표정 등을 학습하여 감정과 대화 모델을 세분화하고, 사용자가 유명인을 선택한 경우, 모델링 및 학습된 대화패턴을 이용하여 사용자의 얼굴표정, 음성 및 텍스트로 분석된 감정으로부터 응답 텍스트를 출력하고, 대화의 전후 상황을 이해하고, 이를 토대로 자신의 감정 상태를 변화시킬 줄 알며, 주관적인 감정과 의견을 드러낼 수 있으며, 단순 반응형 수준의 대화형 인공지능의 한계를 극복하여 상황인지는 물론 주관적 개성을 지닌 의도형 수준의 대화형 인공지능 에이전트를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 화상 대화 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 도 1의 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 시스템(1)은, 사용자 단말(100), 화상 대화 서비스 제공 서버(300), 및 적어도 하나의 실사 제공 서버(400)를 포함할 수 있다. 다만, 이러한 도 1의 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 사용자 단말(100)은 네트워크(200)를 통하여 화상 대화 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 화상 대화 서비스 제공 서버(300)는, 네트워크(200)를 통하여 사용자 단말(100), 적어도 하나의 실사 제공 서버(400)와 연결될 수 있다. 또한, 적어도 하나의 실사 제공 서버(400)는, 네트워크(200)를 통하여 화상 대화 서비스 제공 서버(300)와 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

사용자 단말(100)은, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 유명인과 대화 또는 화상통화를 하고자 하는 사용자의 단말일 수 있다. 이때, 사용자 단말(100)은, 유명인을 선택하고, 선택된 유명인과 화상 통화 또는 대화를 가상현실 또는 증강현실 기반으로 진행하되, 사용자의 얼굴표정 및 음성신호를 수집하여 이에 대응하는 응답을 유명인이 대답하는 것과 같은 매커니즘을 구현할 수 있는 단말일 수 있다. 여기서, 사용자 단말(100)의 네트워킹 자원 및 컴퓨팅 자원이 기 설정된 자원을 만족하는 경우, 상술한 매커니즘이 사용자 단말(100)에서 일어나고, 화상 대화 서비스 제공 서버(300)에서 구현되지 않을 수 있고, 이 경우 화상 대화 서비스 제공 서버(300)는 화상 대화 서비스 애플리케이션, 프로그램, 앱 페이지 또는 웹 페이지를 제공하는 용도 또는 이를 제공하는 서버와 연동되는 역할을 제외하면 삭제될 수도 있다. 또한, 사용자 단말(100)은, 얼굴표정, 응답 및 실사데이터가 합성된 결과를 출력하고, 사용자 단말(100)에서 더 이상 음성 및 화상 정보가 입력되지 않을 때까지 상술한 단계를 반복하는 단말일 수 있다.

여기서, 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

화상 대화 서비스 제공 서버(300)는, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 화상 대화 서비스 제공 서버(300)는, 적어도 하나의 실사 제공 서버(400)로부터 대화 모델의 영상, 2차원 데이터, 3차원 데이터, 음성 데이터 등을 수집하고, 이를 학습시켜 상황별 얼굴표정을 분류하여 저장하고, 응답 데이터를 얼굴 표정 및 음성별로 분류하여 데이터베이스화하는 서버일 수 있다. 그리고, 화상 대화 서비스 제공 서버(300)는, 사용자 단말(100)로부터 대화 상대인 유명인을 선택하는 경우, 선택된 유명인의 얼굴표정, 음성 및 응답 데이터를 로딩하고, 사용자 단말(100)로부터 수집된 얼굴표정, 음성 및 음성이 변환된 텍스트를 입력값(질의, Query)으로 한 응답 데이터를 생성 또는 추출하고, 이를 사용자 단말(100)로 전송하도록 하는 서버일 수 있다. 다만, 상술한 바와 같이, 사용자 단말(100)의 네트워킹 자원 및 컴퓨팅 자원이 기 설정된 기준값을 만족하는 경우에는, 화상 대화 서비스 제공 서버(300)는, 사용자 단말(100)에서 상술한 과정이 수행되도록 제어할 수 있다. 그리고, 사용자별 감정패턴, 대화패턴 등을 학습하기 위하여 화상 대화 서비스 제공 서버(300)는, 빅데이터를 적어도 하나의 정보제공 서버(500) 및 기 저장된 히스토리 로그 데이터를 이용하여 구축하고, 수집, 전처리, 분석 등을 통하여 빅데이터를 분류 및 클러스터링한 후 학습시키는 서버일 수 있다. 또한, 화상 대화 서비스 제공 서버(300)는, 비정형 데이터인 영상 데이터나 이미지 데이터로부터 식별자를 추출하기 위하여, 영상 데이터 및 이미지 데이터로부터 식별자를 태깅하기 위한 딥러닝 인공신경망 알고리즘을 이용하여 데이터 학습을 진행하는 서버일 수 있다. 그리고, 화상 대화 서비스 제공 서버(300)는, 학습 결과에 따라 이후 입력되는 영상, 이미지 등으로부터 식별자를 태깅하거나 추출하는 서버일 수 있다.

여기서, 화상 대화 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

적어도 하나의 실사 제공 서버(400)는, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 유명인 또는 유명인의 초상권이나 이를 배포하는 자격을 가진 사람 또는 업체의 단말일 수 있다. 이때, 실사 데이터는 유명인이 아닐지라도 자신의 얼굴을 배포할 권리를 제공하는 사람으로부터 수집된 데이터라면 어느 데이터이든 가능하다 할 것이다. 또한, 유명인이라고 기재하였지만, 비유명인의 데이터도 포함됨은 자명하다 할 것이다. 그리고, 적어도 하나의 실사 제공 서버(400)는, 유명인의 2차원 또는 3차원의 영상 데이터, 모델링 데이터, 음성 데이터 등을 제공하는 서버일 수 있다. 이때, 화상 대화 서비스 제공 서버(300)에서 직접 유명인을 촬영하여 모델링하는 경우에는 적어도 하나의 실사 서비스 제공 서버(400)는 구비되지 않을 수 있다. 그리고, 적어도 하나의 실사 제공 서버(400)는 유명인의 초상권 사용에 대한 대가로 수수료를 화상 대화 서비스 제공 서버(300)로부터 제공받는 서버일 수 있다. 또한, 무단도용을 방지하기 위하여, 적어도 하나의 실사 제공 서버(400)에서 SBC(Server Based Computing)이 구동될 수 있으나 이에 한정되지는 않고 본인을 인증할 수 있는 문서, 보호키, 생체인증 등 다양한 방법이 이용될 수 있음은 자명하다 할 것이다.

여기서, 적어도 하나의 실사 제공 서버(400)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 실사 제공 서버(400)는, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 실사 제공 서버(400)는, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

도 2는 도 1의 시스템에 포함된 화상 대화 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 2를 참조하면, 화상 대화 서비스 제공 서버(300)는, 접속부(310), 로딩부(320), 결정부(330), 제어부(340), 및 모델링부(350)를 포함할 수 있다.\

본 발명의 일 실시예에 따른 화상 대화 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 사용자 단말(100), 및 적어도 하나의 실사 제공 서버(400)로 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 사용자 단말(100), 및 적어도 하나의 실사 제공 서버(400)는, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 사용자 단말(100), 및 적어도 하나의 실사 제공 서버(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.

도 2를 참조하면, 접속부(310)는, 사용자 단말(100)로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속할 수 있다. 이때, 사용자 단말(100)은 자신의 통화정보나, 나이나 성별, 텍스트로 대화한 정보 등을 접속부(310)로 제공하거나 해당 정보를 엑세스할 수 있는 권한을 접속부(310)에 제공할 수 있다. 이에 따라, 접속부(310)는 사용자 단말(100)에서 발생하는 음성통화를 통하여 사용자의 대화패턴을 학습하고, 텍스트 메세지 송수신을 통하여 텍스트 송수신 패턴을 학습할 수 있다.

이때, 대화형 인터랙션의 이론적인 근거는 언어/행위 관점(Language/Action Perspective) 연구가 가장 대표적인데, 언어적 의사소통의 과정을 정보 시스템 설계에 도입하기 위하여 CfA(Conversation for Action) 모델을 적용할 수 있으나, 이에 한정되지 않는다. CfA 모델에 기초하면 언어는 인간의 모든 협업 행위에서 가장 근본적인 요인이며, 이러한 언어-행위 관점이 모든 CSCW (Computer-Supported Cooperative Work) 시스템 개발에서 매우 중요한 역할을 수행한다. 언어-행위 관점에서 초점을 두는 것은 언어의 의미와 사용이 실제 업무를 수행하는 형태, 즉 대화의 구조이다. 대화 구조의 기본 요소는 요청(Request)와 응답(Response)인데, 대화 참여자 중 한편이 상대편에게 요청을 하면, 상대편은 일련의 차후 행위를 예상하고 공감, 수락, 거부, 또는 수정제안의 형태로 응답하게 된다. 이 과정은 순환적으로 진행되면서 대화 참여자간에 상호이해가 형성되며 이에 기반하여 의미 있는 협업 행위가 발생하게 된다는 것이다. 이를 위하여, 사람과 기기 간에 이루어지는 대화의 특성을 관찰하고 시사점을 도출하기 위한 실험과, 실험의 입력 데이터가 요구되는데, 이는 별도로 사용자가 제공하는 것도 포함하지만, 사용자 단말(100)로 수신되는 호(Call) 또는 발신되는 호에서 주고받는 대화를 백그라운드 모드로 화상 대화 서비스 제공 서버(300)로 스트리밍하여 입력값을 제공할 수도 있고, 사용자 단말(100)에 설치된 적어도 하나의 메신저에서 사용자가 입력하는 값과 반응하는 값을 제공할 수도 있다. 이때, 역할 수행(Role playing) 기법을 적용하여 사람(사용자)-기기(유명인) 대화를 진행할 수 있는 근거를 제시할 수 있다.

로딩부(320)는 사용자 단말(100)에서 기 저장된 유명인과의 가상 화상 통화를 선택하는 경우, 선택된 유명인의 실사 모델링 데이터, 음성 복제 데이터, 및 얼굴 표정 변화 데이터를 로딩할 수 있다. 여기서, 유명인의 실사 모델링 데이터는 감정 분류에 따라 영상이 별도로 촬영될 수도 있고, 하나의 얼굴 표정에 워핑(warping) 기법으로 영상처리하여 영상의 형태(얼굴의 형태)를 변형시킴으로써 얼굴표정을 다분화할 수도 있다. 전자의 경우에는, 공감, 고민, 화남, 슬픔, 기쁨, 무표정 등의 감정분류변화에 따라 촬영 객체(유명인)을 촬영하고, 이를 메타데이터나 태그를 붙여 분류한 후 학습시키는 방법을 이용할 수 있다. 후자의 경우에는, 픽셀 위치와 이동정보를 기하학적 처리를 통하여 표정변화를 주고, 변화된 표정이 포함된 영상을 분류하여 데이터베이스화할 수 있다. 즉, 실사를 이용하여 모델링된 캐릭터(유명인)의 감정에 따라 실시간으로 변하는 얼굴표정변화를 줄 수 있고, 워핑은 입력영상과 출력영상이 있을 때 두 영상 사이에 서로 대응되어야 할 위치를 제어선으로 기술한 후 제어선과 픽셀의 기하학적 관계를 계산하여 최종적으로 이동시킬 수 있다. 이러한 워핑 과정을 여러 프레임에 걸쳐 수행한다면 입력 영상으로부터 출력 영상까지의 변환 과정을 세분화시킬 수 있는데 원하는 장면만큼 중간 프레임의 제어선을 보간하며 매 프레임이 변환될 때마다 워핑의 과정을 반복하게 된다. 또한 미리 감정에 따른 표정의 제어선을 기술해 놓는다면 입력되는 감정의 가중치만큼 제어선을 변화시켜 캐릭터의 표정을 변화시키는 데에 이용할 수 있다. 이 외에도, 현재 입력되는 표정에 따라 캐릭터의 표정, 또는 아바타의 표정이 정해져서 바뀌는 표정 인식 관련 연구나 해부학적인 인간의 열굴 표정을 토대로 사실적인 얼굴 표정 변화를 만들어내는 방법이 이용될 수도 있지만 상술한 방법들에 한정되지 않고 얼굴 표정을 세부적으로 분류할 수 있도록 변경하는 방법이라면 어느 것이든 사용가능하다. 또한, 감정 적응형 표정 변환 모델을 이용할 수도 있는데, 일반적 워핑 기법에서와 같이 입력 영상에서 미리 정해진 제어선과 각 감정에 맞는 표정의 제어선을 가지고 있다면 캐릭터의 감정 상태에 따라 각 감정에 맞는 제어선이 선택된다. 그리고 이 제어선을 통한 프레임 보간 과정은 감정의 가중치에 따라 처리할 수 있고, 매 프레임의 캐릭터에 설정된 감정 상태에 따라 가중치만큼 변화되는 표정을 확인할 수 있다. 이를 위하여, 입력되는 실사 캐릭터의 기본 제어선은 이미 설정되어 있고, 그에 맞는 표정들의 제어선이 정해져 있다면 실시간으로 캐릭터의 새로운 감정 변화에 대응하는 제어선이 선택되고, 가중치만큼 변화되어야 한다. 감정에 따른 얼굴 표정 근육의 변화는 P.Ekman의 얼굴 심리학에 의거하여 운동(표정) 심리학, 기초 해부학에 따른 인간의 표정 변화에 사용되는 근육을 지정하고, 이를 데이터베이스화하여 선택되는 제어선에 따라 감정 변화 가중치만큼 출력 제어선의 변화량을 조절할 수 있다.

이를 위하여, 매 프레임의 출력되는 영상내의 모든 픽셀들은 정해져 있는 모든 제어선의 영향을 받으며 입력 영상의 대응되는 픽셀 값을 복사해 오고, 이미지의 가로방향 세로방향으로 영상내의 모든 픽셀들을 탐색하며 그에 대응되는 값을 찾아오는 계산은 데이터 병렬 처리할 수 있다.

결정부(330)는, 사용자 단말(100)에서 음성이 입력된 경우, 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 입력된 음성의 응답 텍스트와 얼굴 표정을 결정할 수 있다. 결정부(330)는, 사용자 단말(100)에서 음성이 입력된 경우, 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 입력된 음성의 응답 텍스트와 얼굴 표정을 결정할 때, 입력된 음성 신호로부터 감정을 인식하여 특징을 추출하고, 추출된 특징을 이용하여 패턴을 인식할 수 있다. 이때, 감정인식의 특징은 피치, 에너지, 포만트, 및 말의 빠르기 중 어느 하나 또는 적어도 하나의 조합으로 추출되고, 감정인식은 어쿠스틱 특징(acoustic feature) 중 피치의 통계치, 소리의 크기, 섹션 개수, IR(Increasing Rate), 및 CR(Crossing Rate) 중 어느 하나 또는 적어도 하나의 조합의 특징을 인공신경망에 적용할 수 있다.

이때, 자연어 처리(Natural Language Processing, NLP)란 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미하며, 자연어 처리 방식으로는 전통적으로 규칙 기반 접근법, 통계기반 접근법이 있고, 이 둘의 강점을 통합한 하이브리드 방식이 있으며, 인공신경망 방식이 있는데, 최근 들어 부상하고 있는 딥러닝(Deep Learning)이 인공신경망 방식에 해당한다. 딥러닝을 이용한 방식은 입력 문장과 출력 문장을 하나의 쌍으로 두고, 가장 적합한 표현 및 번역 결과를 찾는 방식이다.

이때, 본 발명의 일 실시예에서는 자연어를 처리하는 것 뿐만 아니라, 자연어로부터 감정을 분석해야 하는데, 감정분석을 위하여 감정 어휘 사전을 사용할 수 있고, 단어의 극성 (즉, 긍정, 부정, 중립)을 추출하는 데에 어휘사전 및 반지도 학습(semi-supervised learning) 알고리즘과 무작위 행보 과정을 통해 긍정, 부정, 중립으로 나누어지는 단어의 극성을 수치로 부여한 어휘 사전을 이용할 수 있다.

결정부(330)는 사용자 단말(100)에서 음성이 입력된 경우, 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 입력된 음성의 응답 텍스트와 얼굴 표정을 결정할 때, 사용자 단말(100)의 얼굴 표정 데이터를 입력받는 경우, 입력된 얼굴 표정 데이터인 다차원 특징 벡터 데이터를 이용하여 얼굴 표정 데이터로부터 감정을 인식할 수 있다. 이때, 다차원 특징 벡터 데이터를 광학적 흐름 분석법, 홀리스틱 분석법, 및 국부적인 표현 분석법 중 어느 하나 또는 적어도 하나의 조합의 분석으로 감정을 인식하고, 홀리스틱 분석은 PCA 방법에 기반하여 특징을 추출하고 최소거리 분류 방법을 이용하여 감정을 인식하는 방법일 수 있으나, 상술한 방법에 한정되지는 않는다.

제어부(340)는, 결정된 응답 텍스트를 얼굴 표정을 통하여 실사 모델링 캐릭터가 발화하도록 제어할 수 있다. 제어부(340)에서 결정된 응답 텍스트를 얼굴 표정을 통하여 실사 모델링 캐릭터가 발화하도록 제어할 때, 결정된 얼굴 표정에 대응하는 정면 및 측면의 직교하는 복수의 2차원 또는 3차원의 기 저장된 얼굴 영상을 추출하고, 추출된 얼굴 영상에 포함된 적어도 하나의 특징점을 추출하여 실사 모델링 캐릭터의 얼굴을 변형하고, 변형된 얼굴을 가진 실사 모델링 캐릭터의 위치, 크기, 표정 및 회전 정보를 반영하여 합성할 수 있다. 제어부(340)는 결정된 응답 텍스트를 얼굴 표정을 통하여 실사 모델링 캐릭터가 발화하도록 제어할 때, 결정된 얼굴 표정에 대응하는 표정을 메타데이터로 가진 실사 모델링 캐릭터를 검색하고, 검색된 표정을 가진 실사 모델링 캐릭터가 결정된 응답 텍스트를 발화하도록 합성할 수 있다.

모델링부(350)는, 접속부(310)에서 사용자 단말(100)로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속하기 이전에, 적어도 하나의 유명인을 촬영하여 실사 모델링을 실시하고, 적어도 하나의 유명인이 발화한 음성 데이터 및 촬영 데이터를 음성 데이터가 텍스트 변환된 텍스트 데이터와 매핑하여 저장하고, 실사 모델링이 수행된 실사 모델링 데이터에, 음성 데이터, 촬영 데이터 및 텍스트 데이터를 적용하여 데이터베이스화할 수 있는데, 표정을 세분화하고 모델링하는 방법에 대해서는 상술한 바와 같으므로 상세한 설명을 생략하기로 한다.

이때, 캐릭터 기반 대화형 인공지능의 기능이 기반이 될 수 있는데, 맥락은 상황을 특정 짓기 위해 사용된 모든 정보이며, 맥락 인지는 근처의 사람과 사물들, 사용되는 장소 뿐만 아니라 시간에 따른 대상들의 변화에 따라 채택되어진다. 또한 인지심리학의 행동모델에 따르면 세상을 이해하고 지각하는 것은 주관적인 인식을 통해서만 가능, 즉, 행동모델에 따른 맥락 인지는 사람, 사물, 장소뿐만 아니라 시간에 따른 대상들의 변화마저도 주관적인 관점에 따른 선택을 통해 진행된다고 하였다. 이에, 본 발명의 일 실시예에서는, 캐릭터 기반 대화형 인공지능이란 연속대화 수행을 통해 대화의 상황을 이해하고 이를 바탕으로 주관적인 의견과 감정을 표현할 수 있는 대화형 인공지능으로 정의한다.

이를 위하여, 대화형 인공지능은 인식, 의사결정, 계획/행동 등 크게 세 부분으로 나눌 수 있고, 각 에이전트는 다시 지식 베이스와 추론 엔진으로 세분화될 수 있다. 복수의 에이전트로 구성된 시스템은, 상대방의 대화를 읽어내고, 파악하며, 자신의 감정 상태를 고려한 전반적인 대화 상황을 인지하고, 대응 전략을 구상하고, 실행 계획을 수립하여 실행하는 순서를 진행할 수 있다. 여기서, 대상 언어 분석 에이전트는 상대방으로부터 전달받은 문장을 통해 대상이 전하고자하는 의미와 대상의 감정을 분석하는 에이전트인데, 에이전트에서는 의사 결정 에이전트의 피드백과 상대방의 발언으로부터 단편 분석과 심층 분석을 통하여 상대방이 전하고자하는 의미와 감정을 파악하여 이를 대화 상황 판단 에이전트에 전달할 수 있다.

단편 분석은 현재 상대방으로부터 전달받은 문장을 통해 의미적·감정적인 분석을 의미하고, 심층 분석은 상황인지 에이전트로부터 받은 피드백을 통해 업데이트 받은 상대의 의도와 감정을 누적시킴으로써 상대의 실제 의도와 감정을 유추하기 위한 분석 모듈이다. 심층 분석은 대화의 초기에는 단편 분석의 값만으로 구성되기 때문에 대상에 대한 선입견이 반영되며 이는 대화가 진행됨에 따라 실제 대상의 의도와 감정에 맞게 업데이트될 수 있다. 자기감정 파악 에이전트는 상대방으로부터 전달받은 문장을 통해 인공지능 스스로의 감정의 변화를 모델링하기 위한 에이전트이다. 이 에이전트 또한 대상 언어 분석 에이전트와 마찬가지로 단편 분석과 심층 분석을 통해 상대방의 발언으로 부터 인공지능 스스로의 감정을 파악하여 이를 대화 상황 판단 에이전트에 전달한다.

단편적 반응을 통한 모델링은 상대방의 일정 수준이상의 강한 반응을 통해 일어나는 순간적인 감정적 변화이다. 이는 강한 자극으로 인한 갑작스런 감정의 변화 혹은 순간적인 감정의 표출에 영향을 미친다. 심층적 반응을 통한 모델링은 상대방과의 대화가 진행되어가는 상황으로부터 발생하여 누적되는 감정적 변화를 모델링한다. 또한, 대화 상황 판단 에이전트는 대상 언어 분석 에이전트와 자기감정 파악 에이전트로부터 전달받은 의미와 감정 상태, 의사결정 에이전트의 피드백 통해 대화의 상황을 파악하며 이를 의사결정 에이전트에 전달할 수 있다. 또한 대상 언어 분석 에이전트와 자기감정 파악 에이전트에 파악된 상황에 대하여 피드백을 해주어 각각의 심층 분석 모듈의 업데이트를 위해 제공할 수 있다.

그리고, 의사 결정 에이전트는 대화 상황 판단 에이전트를 통해 파악한 상황에 인공지능의 발화 목적을 포함하여 다음 발언의 의도를 결정하는 에이전트이다. 의사 결정 에이전트는 대상 언어 분석 에이전트 및 대화 상황 판단 에이전트의 추론 엔진에 피드백을 주어 주어진 상황에 대해 주관적인 해석을 이루도록 한다. 인공지능 스스로의 목적을 이루기 위해서는 대상 언어 분석 에이전트와 자기감정 파악 에이전트를 통해 만들어진 감정 모델을 통한 시뮬레이션을 통해 의사를 결정할 수 있다. 응답 생성 에이전트는 의사 결정 에이전트를 통해 결정된 다음 발언의 의도를 문장의 수준으로 생성해주는 에이전트이고, 문장 표현 에이전트는 응답 생성 에이전트의 결과 문장을 문법과 특정 어투에 맞도록 변형해주는 에이전트이다. 다만, 상술한 에이전트를 사용하지 않고도 감정을 파악하고 이에 대한 연속적인 답변을 이루어나갈 수 있는 알고리즘, 에이전트는 어느 것이든 사용가능함은 자명하다 할 것이다.

정리하면, 본 발명의 일 실시예에 따른 방법은, 사용자의 발화 음성 신호, 발화된 텍스트 및 얼굴 표정으로부터 감정을 분석하고, 텍스트 자체에 대한 응답을 생성하도록 하며, 유명인(실사 캐릭터, 대화 상대)의 얼굴표정, 응답 텍스트, 음성을 결정하여 발화에 응답하도록 한다. 그리고, 사용자의 행동패턴, 감정패턴, 말하기 패턴을 학습함으로써 어떠한 방향으로 응답을 해야하는지를 딥러닝하도록 한다. 이에 기반하여 사용자별로 데이터베이스를 구축하고, 사용자가 어떠한 상대를 택하던지 간에 학습한 내용이 기반이 되도록 하되, 유명인의 발화 특징, 성격 등은 그대로 남겨둠으로써 실제로 유명인과 대화나 화상통화하는 것과 같은 프로그램을 구현할 수 있도록 한다.

이하, 상술한 도 2의 화상 대화 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.

도 3을 참조하면, (a) 사용자 A가 사용자 단말(100)을 통하여 대화할 사람을 선택할 때, 원빈을 선택했다고 가정하자. 이때, 화상 대화 서비스 제공 서버(300)는, 원빈의 데이터베이스, 즉, 얼굴표정 데이터, 실사 캐릭터 데이터, 음성 데이터 등을 로딩하여 사용자 A와의 대화를 준비한다.

그리고, (b) 화상 대화 서비스 제공 서버(300)는, 사용자 단말(100)의 화면에 원빈의 실사 캐릭터를 디스플레이하고, 사용자 단말(100)의 촬영 수단으로부터 사용자의 얼굴 표정 및 음성을 수집하여 실시간으로 스트리밍받는다. 이때, (c) 화상 대화 서비스 제공 서버(300)는, 음성신호, 얼굴 표정 및 음성이 변환된 텍스트로부터 감정을 인식하고 텍스트를 분석하여 응대 텍스트, 얼굴 표정 및 음성을 결정하고, (d) 결정된 텍스트가 자연어처리된 발화문, 얼굴 표정 및 음성을 합성하거나, 기 저장된 표정에 발화문과 음성을 합성하여 사용자 단말(100)로 전송한다.

또한, (e) 이 과정은 대화를 마칠 때까지 계속 루프를 돌며 반복하게 되는데, 대화를 마치고 나서는 (f) 화상 대화 서비스 제공 서버(300)는, 사용자의 감정상태를 분석한 결과와, 대화 패턴을 분석한 결과를 이용하여 기 저장된 데이터베이스를 업데이트하고 학습시켜서 저장함으로써 사용자에게 맞춤형 대화가 이루어질 수 있도록 한다. 이때, 사용자가 먼저 말을 걸지 않더라도 능동적으로 사용자의 얼굴 표정을 읽고 이에 대응하는 발화를 실사 캐릭터가 제시하는 것도 가능하다.

이와 같은 도 2 및 도 3의 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 4는 본 발명의 일 실시예에 따른 도 1의 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 4를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 4에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 4를 참조하면, 화상 대화 서비스 제공 서버(300)는, 적어도 하나의 실사 제공 서버(400)로부터 실사 데이터를 수집하고(S4100), 데이터베이스화한 후 학습시킨다(S4200).

그리고, 화상 대화 서비스 제공 서버(300)는, 사용자 단말(100)로부터 대화 상대를 선택하는 이벤트를 수신하고(S4300), 실사 모델링 데이터, 음성 복제 데이터, 얼굴 표정 변화 데이터를 로딩하며(S4400), 사용자 단말(100)에서 실시간으로 스트리밍되는 사용자의 얼굴표정 및 음성을 수신하면(S4500), 텍스트를 분석하고(S4600), 응답 텍스트를 추출하여(S4700), 얼굴 표정을 추출하거나 생성하고(S4800), 실사 데이터와 합성함으로써(S4810), 사용자 단말(100)로 응답이 제공되게 된다(S4820).

이에, 사용자 단말(100)은 응답 데이터를 음성 및 화면으로 출력하게 되고(S4830), 대화가 종료될 때까지(S4900), 상술한 단계들은 루프를 돌며 반복하게 되고, 다른 상대가 선정되는 경우에도 마찬가지로(S4910), 상대의 특유 목소리, 응대 대화 패턴, 얼굴 표정만 달라질 뿐, 상술한 단계는 반복하며 대화가 종료될 때까지 지속된다(S4920).

상술한 단계들(S4100~S4920)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S4100~S4920)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 4의 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통해 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5는 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 화상 대화 서비스 제공 서버는, 사용자 단말로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속한다(S5100).

그리고 나서, 화상 대화 서비스 제공 서버는 사용자 단말에서 기 저장된 유명인과의 가상 화상 통화를 선택하는 경우, 선택된 유명인의 실사 모델링 데이터, 음성 복제 데이터, 및 얼굴 표정 변화 데이터를 로딩한다(S5200).

또한, 화상 대화 서비스 제공 서버는 사용자 단말에서 음성이 입력된 경우, 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 입력된 음성의 응답 텍스트와 얼굴 표정을 결정하고(S5300), 및 결정된 응답 텍스트를 얼굴 표정을 통하여 실사 모델링 캐릭터가 발화하도록 제어한다(S5400).

이와 같은 도 5의 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5를 통해 설명된 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

화상 대화 서비스 제공 서버에서 실행되는 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법에 있어서,
실사 제공 서버로부터 대화 모델의 실사 모델링 데이터, 음성 복제 데이터 및 얼굴 표정 변화 데이터를 수집하는 단계;
상기 수집된 실사 모델링 데이터, 음성 복제 데이터 및 얼굴 표정 변화 데이터로부터 식별자를 태깅하기 위한 딥러닝 인공신경망 알고리즘을 이용하여 데이터 학습을 진행하는 단계;
상기 데이터 학습에 의해 상기 실사 제공 서버로부터의 실사 모델링 데이터, 음성 복제 데이터 및 얼굴 표정 변화 데이터에서 상기 식별자를 추출하여 상기 실사 제공 서버로부터의 실사 모델링 데이터, 음성 복제 데이터 및 얼굴 표정 변화 데이터를 상황별로 분류하는 단계;
사용자 단말로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속하는 단계;
상기 사용자 단말에서 기 저장된 유명인과의 가상 화상 통화를 선택하는 경우, 상기 상황별로 분류된 실사 모델링 데이터, 음성 복제 데이터 및 얼굴 표정 변화 데이터를 기초로, 상기 선택된 유명인의 실사 모델링 데이터, 음성 복제 데이터, 및 얼굴 표정 변화 데이터를 로딩하는 단계;
상기 사용자 단말에서 음성이 입력된 경우, 상기 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 상기 입력된 음성의 응답 텍스트와 얼굴 표정을 결정하는 단계; 및
상기 결정된 응답 텍스트를 상기 얼굴 표정을 통하여 상기 실사 모델링 데이터가 발화하도록 제어하는 단계를 포함하되,
상기 자연어 처리 알고리즘은 긍정, 부정 및 중립으로 구분된 단어의 극성을 수치로 부여한 어휘 사전을 이용하여 사용자의 감정을 분석하고,
상기 대화형 인공지능은 상대방의 발언으로부터 단편 분석과 심층 분석을 수행하며,
상기 단편 분석은 상대방으로부터 전달받은 문장을 통한 의미적 분석 및 감정적 분석이고, 상기 심층 분석은 상황인지 피드백을 통해 업데이트된 상대방의 의도와 감정을 누적시켜 상대방의 실제 의도와 감정을 유추하는 분석을 포함하는
가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법.
제 1 항에 있어서,
상기 사용자 단말로부터 가상 화상 대화 서비스를 제공하는 페이지에 접속하는 단계 이전에,
적어도 하나의 유명인을 촬영하여 실사 모델링을 실시하는 단계;
상기 적어도 하나의 유명인이 발화한 음성 데이터 및 촬영 데이터를 음성 데이터가 텍스트 변환된 텍스트 데이터와 매핑하여 저장하는 단계;
상기 실사 모델링이 수행된 실사 모델링 데이터에, 상기 음성 데이터, 촬영 데이터 및 텍스트 데이터를 적용하여 데이터베이스화하는 단계;
를 더 포함하는 것인, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법.
제 1 항에 있어서,
상기 사용자 단말에서 음성이 입력된 경우, 상기 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 상기 입력된 음성의 응답 텍스트와 얼굴 표정을 결정하는 단계는,
상기 입력된 음성 신호로부터 감정을 인식하여 특징을 추출하고, 상기 추출된 특징을 이용하여 패턴을 인식하는 단계;
를 포함하고,
상기 감정인식의 특징은 피치, 에너지, 포만트, 및 말의 빠르기 중 어느 하나 또는 적어도 하나의 조합으로 추출되고, 상기 감정인식은 어쿠스틱 특징(acoustic feature) 중 피치의 통계치, 소리의 크기, 섹션 개수, IR(Increasing Rate), 및 CR(Crossing Rate) 중 어느 하나 또는 적어도 하나의 조합의 특징을 인공신경망에 적용하는 것인, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법.
제 1 항에 있어서,
상기 사용자 단말에서 음성이 입력된 경우, 상기 입력된 음성을 자연어 처리 알고리즘을 통하여 분석한 후, 상기 입력된 음성의 응답 텍스트와 얼굴 표정을 결정하는 단계는,
상기 사용자 단말의 얼굴 표정 데이터를 입력받는 경우, 상기 입력된 얼굴 표정 데이터인 다차원 특징 벡터 데이터를 이용하여 얼굴 표정 데이터로부터 감정을 인식하는 단계;
를 포함하고,
상기 다차원 특징 벡터 데이터를 광학적 흐름 분석법, 홀리스틱 분석법, 및 국부적인 표현 분석법 중 어느 하나 또는 적어도 하나의 조합의 분석으로 감정을 인식하고,
상기 홀리스틱 분석은 PCA 방법에 기반하여 특징을 추출하고 최소거리 분류 방법을 이용하여 감정을 인식하는 방법인 것인, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법.
제 1 항에 있어서,
상기 결정된 응답 텍스트를 상기 얼굴 표정을 통하여 상기 실사 모델링 캐릭터가 발화하도록 제어하는 단계는,
상기 결정된 얼굴 표정에 대응하는 정면 및 측면의 직교하는 복수의 2차원 또는 3차원의 기 저장된 얼굴 영상을 추출하는 단계;
상기 추출된 얼굴 영상에 포함된 적어도 하나의 특징점을 추출하여 상기 실사 모델링 캐릭터의 얼굴을 변형하는 단계; 및
상기 변형된 얼굴을 가진 실사 모델링 캐릭터의 위치, 크기, 표정 및 회전 정보를 반영하여 합성하는 단계;
를 수행함으로써 실행되는 것인, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법.
제 1 항에 있어서,
상기 결정된 응답 텍스트를 상기 얼굴 표정을 통하여 상기 실사 모델링 캐릭터가 발화하도록 제어하는 단계는,
상기 결정된 얼굴 표정에 대응하는 표정을 메타데이터로 가진 실사 모델링 캐릭터를 검색하는 단계;
상기 검색된 표정을 가진 실사 모델링 캐릭터가 상기 결정된 응답 텍스트를 발화하도록 합성하는 단계;
를 수행함으로써 실행되는 것인, 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법.