WO2023146030A1

WO2023146030A1 - 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램

Info

Publication number: WO2023146030A1
Application number: PCT/KR2022/007402
Authority: WO
Inventors: 나현석
Original assignee: 주식회사 마블러스
Priority date: 2022-01-28
Filing date: 2022-05-25
Publication date: 2023-08-03
Also published as: KR20230116605A

Abstract

본 발명은 컴퓨팅 장치에 의해 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 방법으로, 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계, 과거 대화 데이터를 활용하여 유사도를 분석하는 단계, 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계 및 생성된 피드백 문장을 사용자에게 전달하는 단계를 포함한다.

Description

감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램

본 발명은 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램에 관한 것이다.

전세계적 유행으로 메타버스가 대두되고 있으며, 이에 따라 메타버스 관련 컨텐츠가 생성되고 있는 시점이다. 기술이 발달하며 화면을 통해 가상 세계를 보는 것을 넘어 직접 가상 세계에 참여할 수 있게 되면서 메타버스 산업은 앞으로 더욱 확대될 것으로 보인다. 이런 메타버스 가상현실 속 사용자들은 가상현실에서 아바타를 만들어 현실과 같은 사회·문화적 활동을 한다. 메타버스에 포함되어 활용할 수 있는 서비스 중 교육 분야는 최근 비대면 교육의 필요성으로 관심이 증가하면서 메타버스 활용 교육에 대한 논의가 본격화되고 있는 실정이다. 따라서, 비대면 교육 학습에 메타버스 교육 시스템을 접목시키고 휴대폰 또는 태블릿 PC로 생성되는 감성, 집중도 등의 컨텐츠를 활용 분석하여 학습의 효율화를 극대화시키기 위한 기술의 발전이 요구된다.

본 발명은 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램에 관한 것을 제공하고자 한다.

본 발명은 일 실시예에 따른 컴퓨팅 장치에 의해 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 방법은, 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 대화 데이터로부터 감정 분류를 수행하는 단계, 통합 모델을 이용하여 얼굴 이미지, 음성, 대화 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계, 과거 대화 데이터를 활용하여 유사도를 분석하는 단계, 감정 분류 값, 집중도, 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계 및 생성된 피드백 문장을 사용자에게 전달하는 단계를 포함한다.

상기 얼굴 이미지로부터 감정 분류를 수행하는 단계는, 얼굴 이미지로부터 얼굴 인식 결과값을 도출하는 사전학습 된 컨벌루션 뉴럴 네트워크(CNN) 모델을 전이학습(transfer learning)하여 감정 분류를 수행할 수 있다.

상기 전이학습 하여 감정 분류를 수행하는 단계는,얼굴 감정 데이터 셋을 수집하고,

수집된 얼굴 감정 데이터셋을 바탕으로 얼굴 이미지와 감정 라벨링을 매칭하고, 매칭된 입력 데이터를 바탕으로 컨벌루션 뉴럴 네트워크 모델을 통해 특징을 추출하고,추출된 특징을 분류기를 통해 분류하여 얼굴 감정을 도출하는 단계일 수 있다.

상기 음성 데이터로부터 감정 분류를 수행하는 단계는, 음성 데이터셋을 수집하고,

수집된 음성 데이터셋을 스펙토그램 이미지 데이터로 변환하고, 변환된 이미지데이터를 컨벌루션 뉴럴 네트워크 모델을 통해 피쳐맵을 도출하고, 상기 피쳐맵을 분류하여 감정 분류를 수행하는 단계일 수 있다.

상기 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계는,

앙상블 기법을 기반으로 통합하는 단계일 수 있다.

상기 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계는,

얼굴 위치를 검출하고 심박수 및 상태를 인식하여 제1 집중도를 판별하고,

영상 기반 시선 추적(eye-tracking)을 통해 시선이 머무르는 위치를 기반으로 제2 집중도를 판별하고,

제1 집중도와 제2 집중도를 통합하여 최종 집중도를 판별하는 단계일 수 있다.

상기 과거 대화 데이터를 활용하여 유사도를 분석하는 단계는,

버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득하는 단계일 수 있다.

상기 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계는,

감정 분류 결과, 집중도 결과, 유사도 결과를 피드백 테이블에 입력하여 피드백 카테고리를 결정하는 단계일 수 있다.

본 발명의 일 실시예에 따른, 전자 장치에 있어서, 메모리, 송수신기 및 적어도 하나의 프로세서를 포함하고, 상기 프로세서는, 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계, 과거 대화 데이터를 활용하여 유사도를 분석하는 단계, 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계 및 생성된 피드백 문장을 사용자에게 전달하는 단계를 수행한다.

컴퓨터 판독 가능한 저장 매체에 기록된 컴퓨터 프로그램은, 전술한 방법을 전자 장치를 통해 수행하도록 구성된다.

본 발명에 따른 상호작용 방법은, 사람의 표정과 음성 그리고 음성 내용을 인식하여 대상의 감정을 알아낼 수 있는 AI 모델을 생성하고 활용할 수 있다. 각 모델을 통해 획득한 감정 분류는 통합 감정 분류 모델의 지표로 활용될 수 있다. 감정 분류 유형은 긍정적, 부정적, 중립적으로 나누어진다.

본 발명에 따른 상호작용 방법은, 음성을 텍스트(text)로 추출할 수 있으며 추출 데이터는 컨텍스트(Context) 기반 피드백 생성과 감정 분류 데이터로 사용할 수 있다. 컨텍스트 기반 피드백으로 사용되는 값은 아바타의 상호작용 기본 값으로 활용될 수 있다. 또한 획득한 텍스트와 감정 예측 결과를 히스토리 데이터로 저장할 수 있다.

본 발명에 따른 상호작용 방법은, 사람의 영상 기반 생체 신호, 안구의 움직임 등을 지표로 사용해 대상의 집중도를 획득할 수 있는 인공지능 모델을 생성할 수 있다.

본 발명에 따른 상호작용 방법은, 사용자의 상호작용 시 분석되는 대화 내용과 감정, 표정과 음성, 과거 대화내용 History, 사용자의 집중도 등을 활용하고 컨텍스트 기반 피드백을 생성할 수 있다.

본 발명에 따른 상호작용 방법은, 아바타의 상호작용 모듈에 적용하여 필요시 감정/자기 조절력을 향상시킬 수 있는 피드백을 제공한다. 피드백은 감정 분류, 집중 여부, 과거 대화내용 유사도 값을 분석하여 피드백 종류와 키워드를 설정한다.

도 1은 본 발명의 다양한 실시 예들에 따른 전자장치가 포함되는 네트워크 시스템을 도시한다.

도 2는 본 발명의 다양한 실시 예들에 따른 전자장치의 구성에 대한 블록도를 도시한다.

도 3은 본 발명의 다양한 실시 예들에 따른 서버의 구성에 대한 블록도를 도시한다.

도 4는 얼굴 이미지에서 감정을 도출하는 CNN 시스템 및 전이학습 시스템의 구성에 대한 블록도를 도시한다.

도 5는 음성 데이터에서 감정을 도출하는 음성학습 시스템에 대한 블록도를 도시한다.

도 6은 복수개의 감정 분류를 통합하는 방법을 예시적으로 도시한 도면이다.

도 7은 실시간 얼굴 이미지로부터 집중도를 도출하는 예시적인 방법을 도시한 도면이다.

도 8은 본 발명에 따른 상호작용 장치의 프로세서에 의해 수행되는 상호작용 방법 따른 세부적 구성 및 데이터 흐름을 도시한 도면이다.

도 9는 본 발명의 다양한 실시 예들에 따른 상호작용 방법을 도시한 순서도이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

도 1을 참고하면, 본 발명의 다양한 실시 예들에 따른 네트워크 시스템은 전자 장치(110), 유/무선 통신 네트워크(120), 서버(130)를 포함한다. 서버(130)는 이미지 데이터를 유/무선통신 네트워크(120)를 통해 사용자의 전자 장치(110)로 부터 획득하고, 감성상태 및 집중상태를 도출한 뒤 해당 상태에 대응하는 챗봇 메시지 UI를 유/무선통신 네트워크(120)를 통해 사용자의 전자 장치(110)에 다시 송신한다.

전자 장치(110)는, 유/무선 통신 네트워크(120)를 통하여 서버(130)의 요청에 따라 사용자의 학습 상태에 대한 얼굴 및 자세 정보를 포함하는 이미지 데이터를 촬영하여 송신한다. 전자 장치(110)는 퍼스널 컴퓨터, 셀룰러 폰, 스마트 폰 및 태블릿 컴퓨터 등과 같이, 정보를 저장할 수 있는 메모리, 정보의 송수신을 수행할 수 있는 송수신부, 정보의 연산을 수행할 수 있는 적어도 하나의 프로세서를 포함하는 전자 장치일 수 있다. 전자 장치(110)의 종류는 한정되지 않는다.

유/무선 통신 네트워크(120)는, 전자 장치(110) 및 서버(130)가 서로 신호 및 데이터를 송수신할 수 있는 통신 경로를 제공한다. 유/무선 통신 네트워크(120)는 특정한 통신 프로토콜에 따른 통신 방식에 한정되지 않으며, 구현 예에 따라 적절한 통신 방식이 사용될 수 있다. 예를 들어, 인터넷 프로토콜(IP) 기초의 시스템으로 구성되는 경우 유/무선 통신 네트워크(120)는 유무선 인터넷망으로 구현될 수 있으며, 전자 장치(110) 및 서버(130)가 이동 통신 단말로서 구현되는 경우 유/무선 통신 네트워크(120)는 셀룰러 네트워크 또는 WLAN(wireless local area network) 네트워크와 같은 무선망으로 구현될 수 있다.

서버(130)는, 유/무선 통신 네트워크(120)를 통하여 전자 장치(110)로부터 사용자의 학습 상태에 대한 얼굴 및 자세 정보를 포함하는 이미지 데이터를 수신한다. 서버(130)는 정보를 저장할 수 있는 메모리, 정보의 송수신을 수행할 수 있는 송수신부, 정보의 연산을 수행할 수 있는 적어도 하나의 프로세서를 포함하는 전자 장치일 수 있다.

도 2를 참고하면, 본 발명의 다양한 실시 예들에 따른 전자 장치(110)는 메모리(111), 송수신부(112) 및 프로세서(113)를 포함한다.

메모리(111)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 메모리(111)는 프로세서(113)의 요청에 따라 저장된 데이터를 제공할 수 있다.

송수신부(112)는, 프로세서(113)와 연결되고 신호를 전송 및/또는 수신한다. 송수신부(113)의 전부 또는 일부는 송신기(transmitter), 수신기(receiver), 또는 송수신기(transceiver)로 지칭될 수 있다. 송수신기(112)는 유선 접속 시스템 및 무선 접속 시스템들인 IEEE(institute of electrical and electronics engineers) 802.xx 시스템, IEEE Wi-Fi 시스템, 3GPP(3rd generation partnership project) 시스템, 3GPP LTE(long term evolution) 시스템, 3GPP 5G NR(new radio) 시스템, 3GPP2 시스템, 블루투스(bluetooth) 등 다양한 무선 통신 규격 중 적어도 하나를 지원할 수 있다.

프로세서(113)는, 본 발명에서 제안한 절차 및/또는 방법들을 구현하도록 구성될 수 있다. 프로세서(113)는 생체 정보의 기계 학습 분석에 기반하여 컨텐츠를 제공하기 위한 전자 장치(110)의 전반적인 동작들을 제어한다. 예를 들어, 프로세서(113)는 송수신부(115)를 통해 정보 등을 전송 또는 수신한다. 또한, 프로세서(113)는 메모리(112)에 데이터를 기록하고, 읽는다. 프로세서(113)는 적어도 하나의 프로세서(processor)를 포함할 수 있다. 프로세서(113)의 세부적인 구성 및 제어에 대한 내용은 이하 후술한다.

프로세서(113)는 상기 프로세서는, 얼굴 이미지로부터 감정 분류를 수행하고, 음성 데이터로부터 감정 분류를 수행하고, 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하고, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하고, 과거 대화 데이터를 활용하여 유사도를 분석하고, 유사도를 기반으로 피드백 카테고리를 결정하고, 생성된 피드백 문장을 사용자에게 전달할 수 있다.

프로세서(113)는 얼굴 이미지로부터 얼굴 인식 결과값을 도출하는 사전학습 된 컨벌루션 뉴럴 네트워크(CNN) 모델을 전이학습(transfer learning)하여 감정 분류를 수행할 수 있다.

프로세서(113)는 얼굴 감정 데이터 셋을 수집하고, 수집된 얼굴 감정 데이터셋을 바탕으로 얼굴 이미지와 감정 라벨링을 매칭하고, 매칭된 입력 데이터를 바탕으로 컨벌루션 뉴럴 네트워크 모델을 통해 특징을 추출하고, 추출된 특징을 분류기를 통해 분류하여 얼굴 감정을 도출할 수 있다.

프로세서(113)는 음성 데이터셋을 수집하고, 수집된 음성 데이터셋을 스펙토그램 이미지 데이터로 변환하고, 변환된 이미지데이터를 컨벌루션 뉴럴 네트워크 모델을 통해 피쳐맵을 도출하고, 상기 피쳐맵을 분류하여 감정 분류를 수행할 수 있다.

프로세서(113)는 앙상블 기법을 기반으로 통합할 수 있다.

프로세서(113)는 얼굴 위치를 검출하고 심박수 및 상태를 인식하여 제1 집중도를 판별하고, 영상 기반 시선 추적(eye-tracking)을 통해 시선이 머무르는 위치를 기반으로 제2 집중도를 판별하고, 제1 집중도와 제2 집중도를 통합하여 최종 집중도를 판별할 수 있다.

프로세서(113)는 버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득할 수 있다.

프로세서(113)는 감정 분류 결과, 집중도 결과, 유사도 결과를 피드백 테이블에 입력하여 피드백 카테고리를 결정할 수 있다.

도 3은 본 발명의 다양한 실시 예들에 따른 서버의 구성에 대한 블록도를 도시한다.

도 3을 참고하면, 본 발명의 다양한 실시 예들에 따른 서버(130)는 메모리(131), 송수신부(132) 및 프로세서(133)를 포함한다. 서버(130)는 전자 장치의 일종일 수 있다.

메모리(131)는, 송수신부(132)와 연결되고 통신을 통해 수신한 정보 등을 저장할 수 있다. 또한, 메모리(131)는, 프로세서(133)와 연결되고 프로세서(133)의 동작을 위한 기본 프로그램, 응용 프로그램, 설정 정보, 프로세서(133)의 연산에 의하여 생성된 정보 등의 데이터를 저장할 수 있다. 메모리(131)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 메모리(131)는 프로세서(133)의 요청에 따라 저장된 데이터를 제공할 수 있다.

송수신부(132)는, 프로세서(133)와 연결되고 신호를 전송 및/또는 수신한다. 송수신부(132)의 전부 또는 일부는 송신기(transmitter), 수신기(receiver), 또는 송수신기(transceiver)로 지칭될 수 있다. 송수신기(132)는 유선 접속 시스템 및 무선 접속 시스템들인 IEEE(institute of electrical and electronics engineers) 802.xx 시스템, IEEE Wi-Fi 시스템, 3GPP(3rd generation partnership project) 시스템, 3GPP LTE(long term evolution) 시스템, 3GPP 5G NR(new radio) 시스템, 3GPP2 시스템, 블루투스(bluetooth) 등 다양한 무선 통신 규격 중 적어도 하나를 지원할 수 있다.

도 4를 참조하면, 사전학습된 CNN 시스템(200)은 얼굴 인식 데이터(210)을 바탕으로 얼굴 이미지 및 결과물인 식별(ID;indentificaion) 결과값을 라벨링(220)한 뒤, 해당 정보를 입력값으로 CNN 모듈(230)에 입력하여 ID 분류 결과(240)를 도출할 수 있다.

도 4를 참조하면, 전이학습 시스템(300)은 별도의 얼굴 감정 데이터셋(310)을 얼굴 이미지 및 결과물인 감정값을 라벨링(320)한 뒤 해당 정보를 입력값으로 CNN 모듈(330)에 입력할 수 있다. CNN 모듈(330)은 얼굴 이미지와 ID 결과값으로 사전학습된 CNN 모듈(230)의 구성이 전이되어 학습될 수 있다.

CNN 모듈(330)은 도출된 결과값을 분류기(340)에 삽입하여 감정 분류 결과(350)를 도출할 수 있다.

도 5는 음성 데이터에서 감정을 도출하는 음성학습 시스템에 대한 블록도를 도시한다. 도 5를 참조하면, 음성학습 시스템(400)은 음성 데이터셋(410)을 바탕으로, 음성 데이터를 음성 스펙토그램(spectrogram) 이미지 데이터(420)로 변환하고, 변환된 이미지 데이터를 CNN 모듈(430)에 삽입하여, 피쳐맵(440)을 도출할 수 있다.

피쳐맵(440)을 다시 분류기(450)에 삽입하여 음성 데이터를 감정 분류 결과(460)으로 도출할 수 있다.

도 6은 복수개의 감정 분류를 통합하는 방법을 예시적으로 도시한 도면이다. 도 6을 참조하면, 복수개의 감정 분류를 통합하는 방법 및 모델이 예시적으로 6(a) 및 6(b)로 나누어 도시되었으나 이는 예시에 불과하며 한정되는 것은 아니다.

대상의 감정을 알아낼 수 있는 모델은 사람의 감정 별 얼굴 표정과 음성, 텍스트에 대한 감정 분류 값을 수집하여 각 데이터 별 감정 분류 값을 통합하는 모델을 생성할 수 있다. 이때 도 6(a)에 따른 앙상블 기법은 다른 특징(Feature)에 대한 결과 통합을 스택킹(Staking) 기법 등을 응용하여 활용할 수 있다. 이때 6(b)에 따른 수식 대입법은, 각 결과를 적용시키는 수식에 대입할 때 예측력이 좋은 방법론을 적용하여 감정을 분류하는 최종 모델을 생성한다.

도 6(a)를 구체적으로 참조하면, 입력 데이터셋에 대하여 각기 다른 방식(얼굴, 음성, 텍스트)에 대한 감정 예측값을 도출하고, 감정 예측값에 새로운 인풋값을 적용하여 새로운 데이터 값을 생성하고, 이를 바탕으로 메타 모델(meta model)을 생성하여 최종 감정 예측값을 도출할 수 있다.

도 7을 참조하면, 영상으로부터 얼굴 위치를 검출하고 심박수 및 상태를 인식하여 집중 여부 및 정도를 획득하는 제1 집중도 모델을 생성할 수 있다. 영상 기반 시선 추적(eye-tracking) 기술을 활용해 사용자의 시선이 어디에 어떻게 머물고 있는지를 파악(히트 맵)하여 집중 여부 및 정도를 획득하는 제2 집중도 모델을 생성한다.

각 집중도 모델을 통합하기 위해 도 6을 참조하여 최종 집중도를 실시간 얼굴 이미지로부터 산출할 수 있다. 예를 들어, 앙상블 방법에 따라 최종 집중도가 산출될 수 있다.

도 8은 본 발명에 따른 상호작용 장치의 프로세서(700)에 의해 수행되는 상호작용 방법 따른 세부적 구성 및 데이터 흐름을 도시한 도면이다.

도 8을 참조하면, 프로세서(700)는 영상과 음성으로 구성된 원본 데이터(710)를 STT 변환 모듈(720)을 통해 전가공 데이터(730)로 마련할 수 있다. 전가공 데이터(730)은 음성, 이미지, 텍스트의 3종류 데이터로 구분될 수 있다.

텍스트 데이터는 음성 데이터로부터 도출될 수 있다. 구체적으로는 STT 변환 모듈(720) 또는 별도의 API 모듈을 통해 텍스트로 획득될 수 있다.

음성 데이터는 도 5에서 전술한 바와 같이, 음성 스펙토그램(741)으로 변환되고, 영상 이미지는 도 4에서 전술한바와 같이 컨벌루션 뉴럴 네트워크(742)에 입력되고, 텍스트 데이터는 자연어 처리 모듈(743)에 입력될 수 있다. 이 단계에서, 도 4에서 전술한바와 같이 이미지 감정 분류를 도출하기 위해 전이학습(744) 시스템이 활용될 수 있다. 이미지 로부터 감정 분류 모델(745)을 생성할 수 있다.

이 단계에서, 텍스트 데이터의 감정 분류를 도출하기 위해 성능이 검증된 자연어 처리 모듈(743)에서 한국어 사전학습 모델을 백본(Backbone)으로 전이 학습 모델을 생성할 수 있다. 전이 학습 모델을 파인튜닝(finetuning)하여 텍스트의 감정 분류 모델(745)을 생성할 수 있다.

집중도 모델(746)은 실시간 얼굴 이미지를 바탕으로 얼굴 위치를 검출하고 심박수 및 상태를 인식하여 집중도를 판별하거나 시선 추적을 통해 집중도를 판별할 수 있다.

유사도 모델(747)은 버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득할 수 있다. 유사도 모델(747)은 과거 대 화내역이 저장된 STT 데이터 스토어(735)에서 저장된 대화와의 유사도를 판단하여 유사한 텍스트가 수신된 적이 있는지 여부를 판단할 수 있다.

최종적으로 각기 다른 모델을 통해 통합 모델을 통해 결과(748)를 제시할 수 있다.

키워드 세터(749)는 상기 모델 들에서 획득한 통합 감정(얼굴 표정, 음성, text) 분류 값과 집중 여부, 과거 대화 데이터와의 유사도 값을 사용하여 상황 별로 키워드 값을 설정할 수 있다.

우선순위	감정 분류	집중도	과거 유사도	피드백 카테고리
1	긍정	집중	-	공감하기
2	긍정 or 부정	-	-	경청하기
4	긍정 or 중립	보통	-	표현 돕기
3	부정	집중	-	위로 하기
5	-	집중	유사	과거 대화
6	-	-	-	일상 대화

표 1을 참조하면, 감정 분류 모델에서 분석한 감정 분류, 집중도 분류 모델에서 분석한 집중도 분류, 유사도 분류 모델에 분석한 과거 유사도에 따라 공감하기, 경청하기 등에 해당하는 피드백 카테고리 및 해당 카테고리에 해당되는 키워드이 설정될 수 있다. 예를 들어, 키워드는 어린이 감정/자기 조절력 케어의 목적을 위한 것이며, 상기 표는 각 분류 모델 결과에 따라 매핑 되는 피드백 카테고리를 예시적으로 설명할 수 있다.키워드의 설정은 공감하기는 “진짜요?”, ”맞는 말”, “좋은 생각”등을 예를 들 수 있으며, 표현 돕기는 “왜 그럴까요?”, “더 구체적으로”등의 예가 제시될 수 있으나 이에 한정되는 것은 아니다. 피드백 생성기(750)는 GPT-3 자연어 생성 모델에 STT로 추출한 사용자 원본 텍스트와 설정한 키워드를 전달하여 피드백 문장을 생성할 수 있다. 프로세서는 별도로 사용자 단말 등에서 제어하는 아바타를 통해 사용자 분석 데이터와 speech 내용에 따라 생성된 피드백 문장을 사용자에게 소리로 전달할 수 있으나 이에 한정되는 것은 아니다.

도 9는 본 발명의 다양한 실시 예들에 따른 상호작용 방법을 도시한 순서도이다. 도 9를 참조하면, 본 방법은 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계(S110), 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계(S120), 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계(S130), 과거 대화 데이터를 활용하여 유사도를 분석하는 단계(S140), 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계(S150) 및 생성된 피드백 문장을 사용자에게 전달하는 단계(S160)을 포함한다.

본 단계는 도 8 및 도 1 등에서 전술된 바와 같으므로 중복되는 설명은 생략한다.

하드웨어를 이용하여 본 발명의 실시 예를 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASICs(application specific integrated circuits) 또는 DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays) 등이 본 발명의 프로세서에 구비될 수 있다.

한편, 상술한 방법은, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능한 저장 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 코드를 포함하는 저장 디바이스를 설명하기 위해 사용될 수 있는 프로그램 저장 디바이스들은, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능한 저장 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함한다.

이상에서 설명된 실시 예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시 예를 구성하는 것도 가능하다. 발명의 실시 예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시 예의 일부 구성이나 특징은 다른 실시 예에 포함될 수 있고, 또는 다른 실시 예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시 예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.

본 발명이 본 발명의 기술적 사상 및 본질적인 특징을 벗어나지 않고 다른 형태로 구체화될 수 있음은 본 발명이 속한 분야 통상의 기술자에게 명백할 것이다. 따라서, 상기 실시 예는 제한적인 것이 아니라 예시적인 모든 관점에서 고려되어야 한다. 본 발명의 권리범위는 첨부된 청구항의 합리적 해석 및 본 발명의 균등한 범위 내 가능한 모든 변화에 의하여 결정되어야 한다.

본 발명에 따른 상호작용 방법은, 사용자의 상호작용 시 분석되는 대화 내용과 감정, 표정과 음성, 과거 대화내용 History, 사용자의 집중도 등을 활용하고 컨텍스트 기반 피드백을 생성할 수 있어, 사용자와 상호작용하는 IT 기술 분야에서 널리 활용될 이용가능성이 있다.

Claims

컴퓨팅 장치에 의해 수행되는 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 방법에 있어서,

얼굴 이미지로부터 감정 분류를 수행하는 단계;

음성 데이터로부터 감정 분류를 수행하는 단계;

통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계;

실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계;

과거 대화 데이터를 활용하여 유사도를 분석하는 단계;

감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계; 및

생성된 피드백 문장을 사용자에게 전달하는 단계;를 포함하는 상호작용 방법.
제1 항에 있어서,

상기 얼굴 이미지로부터 감정 분류를 수행하는 단계는,

얼굴 이미지로부터 얼굴 인식 결과값을 도출하는 사전학습 된 컨벌루션 뉴럴 네트워크(CNN) 모델을 전이학습(transfer learning)하여 감정 분류를 수행하는 단계인 것을 특징으로 하는 상호작용 방법.
제2 항에 있어서,

상기 전이학습 하여 감정 분류를 수행하는 단계는,

얼굴 감정 데이터 셋을 수집하고,

수집된 얼굴 감정 데이터셋을 바탕으로 얼굴 이미지와 감정 라벨링을 매칭하고,

매칭된 입력 데이터를 바탕으로 컨벌루션 뉴럴 네트워크 모델을 통해 특징을 추출하고,

추출된 특징을 분류기를 통해 분류하여 얼굴 감정을 도출하는 단계인 것을 특징으로 하는 상호작용 방법.
제1 항에 있어서,

상기 음성 데이터로부터 감정 분류를 수행하는 단계는,

음성 데이터셋을 수집하고,

수집된 음성 데이터셋을 스펙토그램 이미지 데이터로 변환하고,

변환된 이미지데이터를 컨벌루션 뉴럴 네트워크 모델을 통해 피쳐맵을 도출하고,

상기 피쳐맵을 분류하여 감정 분류를 수행하는 단계인 것을 특징으로 하는 상호작용 방법.
제1 항에 있어서,

상기 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계는,

앙상블 기법을 기반으로 통합하는 단계인 것을 특징으로 하는 상호작용 방법.
제1 항에 있어서,

상기 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계는,

얼굴 위치를 검출하고 심박수 및 상태를 인식하여 제1 집중도를 판별하고,

영상 기반 시선 추적(eye-tracking)을 통해 시선이 머무르는 위치를 기반으로 제2 집중도를 판별하고,

제1 집중도와 제2 집중도를 통합하여 최종 집중도를 판별하는 단계인 것을 특징으로 하는 상호작용 방법.
제1 항에 있어서,

상기 과거 대화 데이터를 활용하여 유사도를 분석하는 단계는,

버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득하는 것을 특징으로 하는 상호작용 방법.
제1 항에 있어서,

상기 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계는,

감정 분류 결과, 집중도 결과, 유사도 결과를 피드백 테이블에 입력하여 피드백 카테고리를 결정하는 단계인 것을 특징으로 하는 상호작용 방법.
제1 항에 있어서,

상기 생성된 피드백 문장을 사용자에게 전달하는 단계는,

상기 결정된 피드백 카테고리에 대응되는 키워드를 결정하고,

사용자 단말에서 수신한 원본 텍스트와 상기 키워드를 입력 값으로 하여 자연어 생성 모델에서 생성된 피드백 문장을 사용자에게 전달하는 단계인 것을 특징으로 하는 상호작용 방법.
전자 장치에 있어서,

메모리, 송수신기 및 적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는,

상기 프로세서는,

얼굴 이미지로부터 감정 분류를 수행하고,

음성 데이터로부터 감정 분류를 수행하고,

통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하고,

실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하고,

과거 대화 데이터를 활용하여 유사도를 분석하고,

유사도를 기반으로 피드백 카테고리를 결정하고,

생성된 피드백 문장을 사용자에게 전달하는 전자 장치.
제1 항 내지 제9 항 중 어느 한 항에 따른 맞춤형 컨텐츠 제공 방법을 전자 장치를 통해 수행하도록 구성되며, 컴퓨터 판독 가능한 저장 매체에 기록된 컴퓨터 프로그램.