KR20210156145A

KR20210156145A - 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템

Info

Publication number: KR20210156145A
Application number: KR1020200073906A
Authority: KR
Inventors: 김훈
Original assignee: 김훈; (주)휴먼앤에이아이
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-12-24

Abstract

본 발명은 인공지능(AI: Artificial Intelligence)과 증강현실(AR: Augmented Reality) / MR(Mixed Reality) 기술을 활용하여, 특정 가수나 배우, 탤런트 등과 대화하기를 원할 시 현장에서 직접 대화를 하지 않고서도 스마트폰이나 PC 등의 단말 시스템에서 이를 가능하게 할 수 있으며, 시스템 내에서 특정인과 자연스럽게 대화를 나눌 수 있도록 음성인식 시스템 및 감정인식 시스템을 활용하는 대화 시스템이다. 즉 PC 나 스마트폰 등 단말기 화면을 통해 증강현실 또는 혼합현실로 나타나는 특정인과 사용자가 쌍방 간 대화를 한다. 사용자가 질문 등을 하면 시스템은 음성인식 시스템을 통해 사용자의 질문, 의견 등 대화내용을 음성인식 하고 이를 분석하여 감정을 인식한다. 또한 사용자 얼굴표정을 영상분석 감정을 추가로 인식하고, 이 결과를 이용하여 화자 감정을 Code화 하여 CBR 시스템에 전달한다. 이를 활용 인공지능 방식인 CBR 시스템은 감정을 포함한 적절한 답변을 구성하고, 사전에 저장한 특정인의 음색을 활용 AR / MR로 표현된 특정인 아바타가 사용자에게 그의 목소리로 들려주도록 만든 쌍방간 대화시스템에 관한 것이다.

Description

인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템 {A voice recognition and emotion recognition based interactive conversation system using AI and AR technology}

본 발명은 인공지능(AI: Artificial Intelligence)기술의 하나인 CBR(Case Based Reasoning:사례기반추론)시스템을 활용하고, 음성인식 시스템 및 감정인식 시스템을 적용하여, 증강현실(AR: Augmented Reality)또는 MR(Mixed Reality)형태로 단말기 화면에 표현된 특정 연예인의 아바타와 사용자가 자연스럽게 대화할 수 있는 쌍방향 대화시스템에 관한 것이다.

일반적으로 가수나 탤런트 등 특정 여예인과 직접 대화하기는 공연이나 이벤트 현장에 가서도 어려운 일이다. 그러나 음성인식 기술, 인공지능 기술을 활용하면 시스템 내에서 가수 등 특정인과 대화도 가능할 수 있다. 특히 사용자의 음성을 분석하고, 얼굴 표정 영상 데이터를 세밀히 분석하면, 감정인식이 가능하며, 사용자의 질문에 시스템이 더욱 자연스럽게 대응할 수 있다.

이를 통해 사용자가 특정 연예인과 대화하기를 원할 시 현장에서 직접 대화를 하지 않고서도 시스템이 이를 가능하게 할 수 있다. 즉 PC나 스마트폰 등 단말기 화면을 통해 AR(증강현실)로 나타나는 특정 영예인과 사용자가 쌍방 간 대화를 하는데, 사용자가 질문한 내용에 대하여 적절한 음성인식을 하여야 하고, 억양과 말의 강약, 속도를 통해 화자의 감정을 인식 하고, 얼굴 표정 영상데이터를 분석 CBR 등의 인공지능 기술을 통해 적절한 감정분류를 하고 이들을 코드화 한다.

시스템 내에서 인식된 사용자의 감정상태에 대한 코드를 활용하고, 인공지능을 활용하여 감정 상태가 반영된 적절한 답변을 구성한다. 또한 미리 작성한 사용자의 예상 질문이나 대화에 연동하여 적절한 답변 스토리보드 내용을 대상으로 인공지능시스템이 유사도를 검색한다. 이후 사용자인 화자 감정에 걸맞는 대응 대화 내용을 선정하여, 시스템 내에서 AR(증강현실) 또는 MR로 화면에 표현된 특정 연예인 아바타가 사전에 저장한 해당자의 음색을 활용 그의 목소리로 사용자에게 대답을 하도록 만든 쌍방간 대화시스템에 관한 것이다.

현재 세계적으로 문화생활의 증대로 인해 배우, 탤런트, 가수의 인기가 높아가고 있는 상황이며, 세계적인 K-Pop의 인기에 힘입어 K-Pop 가수들에 열광하는 fan들의 열정이 크지만 현장에서 만나 대화를 나누기가 무척 어려운 실정이다. 특히 비대면 콘텐츠 수요가 증가함에 따라 팬들의 자기 자신들이 좋아하는 연예인에 대한 관심과 컨택 욕구를 충족시켜 주면서 가수 등 특정인에 대한 자연스러운 대화가 가능하도록 인공지능 시스템을 적용하는 것이 중요해졌다.

본 발명에서는 인공지능의 하나인 CBR 시스템을 활용하고, 음성인식시스템, 감정인식시스템, 증강현실(AR) 기술을 적용해 Fan과의 친밀도를 보다 높이기 위해서 사용자와 대화 대상인 특정인을 묘사한 AR 아바타 간 격의 없는 대화로 실제 당사자를 연상하며 특정인의 아바타와 감정을 나누며 자연스러운 대화를 할 수 있는 시스템을 제공함에 있다.

또한 사용자의 질문에 대한 답변이 충분하지 못하거나, 답변이 스토리보드에 없는 질문을 하게 되면, 정기적으로 특정인이 이를 확인 자신의 답변 의견을 직접 스토리보드에 올려, 추후 사용자의 질문에 적극적으로 대응하도록 하며, 보다 스마트하게 대화 시스템이 진화하도록 한다.

본 발명에서는 이러한 요구를 만족시키기 위한 시스템을 구축하되 사용자가 더욱 흥미를 갖게 하기 위해 가수 등 특정 대상자를 대신하는 AR로 표시된 아바타가 스마트폰 화면이나 노트북, PC 등의 화면에서 쌍방 간 자연스럽게 대화를 이어나가게 하려고 한다. 이를 위해서는 사용자의 음성을 인식하는 음성인식 시스템과, 이 음성을 분석하고 또한 얼굴 표정을 영상 분석하여 감정을 추출 Code화 하는 감정인식시스템과 이 결과를 Code화 하는 시스템이 필요하다.

가능한 모든 질문 내용을 미리 예측하여 감정까지 고려한 답변을 포함한 스토리보드를 시스템 내에 DB(Data Base)로 구축해 놓아야 할 것이며, 대화 대상자인 특정 연예인 아바타가 질문이나 의견에 적합한 답변을 하도록, AI 기능의 CBR시스템이 상기 모든 조건에 합당하도록 답변의 편집이 가능한 시스템이 구축되어야 하며, 또한 특정 대상자 아바타가 특정인의 목소리의 음색을 미리 학습하여, 대화 시 그 특정 대상자의 목소리로 답변하는 음성 변조시스템이 필요하다.

또한 사용자의 질문에 대한 답변이 충분하지 못하거나 답변이 없는 질문을 하게 되면, 정기적으로 가수 등 특정인이 이를 확인 자신의 답변 내용을 직접 스토리보드에 올려, 다음 사용자의 질문에 적극적으로 대응하도록 하며, 보다 스마트하게 시스템이 진화하도록 해야 한다.

본 발명은 가수 등 특정 연예인 등과 대화를 나누게 되어 공연이나 촬영 현장에서도 직접 대화가 어려워 사용자가 느낄 수 없는 연예인과의 친밀도를 높일 뿐 아니라, 대화 대상자인 특정인과 사용자와의 대화를 통해 가수 등 연예인이 Fan에게 보답하는 계기를 마련하게 되는 효과가 있다.

본 발명을 활용하여 특정 연예인이 자신의 명성을 지속적으로 유지 가능하도록 도움을 받을 수 있으며, 비대면 상황에서도 실제 팬사인회에서와 같이 가까이에서 Fan 과의 친밀도를 높여 계속 인기 유지 할 수 있다.

또한 사용자 입장에서 보면 공연 시에는 좋아하는 특정 연예인과 대화하는 기회를 가지기 어려우나, 본 발명을 통해 자유롭게 감정인식을 하면서 대화 대상자인 특정인의 자연스러운 얼굴과 신체모습을 보면서 목소리로 대화가 가능하여 사용자의 만족도가 높아진다.

도 1은 대화를 하려고 하는 사용자인 Fan과 특정 연예인 아바타 쌍방 간 대화를 진행 시 이루어지는 시스템 Process 다이어그램이다.
도 2는 인공지능 시스템에 특화하여 사용자가 질문을 할 때 시스템 내에서 진행하는 인공지능 알고리즘 프로세스를 보여주는 다이어그램이다.
도 3은 사용자의 질문 시 인공지능 시스템이 사용자에게 감정까지 넣어 적절한 답변을 해 주는 세부적인 답변생성 및 전달과정을 보여주는 다이어그램이다.

도 1은 사용자와 연예인 AR / MR 아바타 쌍방 간 대화를 진행 시 이루어지는 시스템 Process 다이어그램이다. 사용자가 질문을 하면 연예인 아바타가 AR / MR을 이용한 모델로 화면 위로 나타나 특정한 내용을 말하면 언제고 사용자는 본 발명 시스템을 통해 질문 등 대화를 할 수 있다. 이 경우 음성인식 및 감정인식 시스템이 가동되고, 미리 준비한 답변용 스토리보드를 기반으로 인공지능 시스템인 CBR(Case Based Reasoning:사례기반추론)시스템이 사용자의 말에 대한 답변을 적절히 구성하여 시스템을 통해 특정 연예인 아바타가 다시 답변하는 절차를 나타낸 예시도이다.

도 1이 구현되는 본 쌍방향 대화 시스템 활용을 위해서는, 사용자가 먼저 연예인 Photo Card(사진)등에 프린트 한 QR 코드나 인물 사진 자체를 스마트폰 등 단말기의 QR 코드 인식App 등으로 인식하도록 한다.

이 경우 특정 연예인 아바타가 스마트폰 화면에 AR / MR로 보여진다. 이후에 사용자가 질문을 하면 연예인 AR / MR 아바타가 응답을 하는 등 상호간 대화를 하게 된다.

사용자가 연예인 아바타와 대화를 하기를 원하면 도 1의 본 발명 시스템을 활용하면 된다. 즉 사용자(100)가 연예인 AR / MR 아바타와 대화 시, 음성으로 질문 등을 하면서 대화 시 사용자가 말하면, 음성인식 시스템 엔진(200)이 가동되고 시스템 CPU 에 있는 CBR(사례기반 추론) 시스템(301)이 Memory 내에 있는 스토리 보드 DB(400) 내용을 기반으로 음성을 분석 감정을 추출하는 바, 감정 분석은 소리의 강약. 길이, 속도 등으로 구분하여, 20여 가지로 분류 구분한다. 또한 사용자 얼굴 표정의 영상 데이터를 분석, 더욱 정교한 감정인식을 할 수 있다. 이를 적용 감정인식 결과를 Code화 처리(401)후 적절한 대응답변을 선택하기 위해 연예인 답변 AI 편집기(302)로 보내면, 이 시스템이 Memory 내에 있는 스토리 보드 DB(400)를 검색 적절한 답변으로 편집하게 된다. 이 답변 내용은 Memory 내에 있는 증강현실(AR) DB(402)에서 정해진 연예인 아바타가 AR / MR 시스템 화면을 통해 사용자에게 말하게 된다. 또한 이 결과물은 File화 하여, 사용자는 연예인과의 대화진행 결과물(500)Data로 보관할 수 있으며, 연예인 입장에서는 사용자의 질문이나 대화내용 등을 보관 시, 추후 Big Data 분석 자료로 활용되며, 사용자의 연예인과 대화한 자산으로 보관 가치가 있다.

시스템 구현 하드웨어는 CPU(300)와 연결되어 있으며, 이는 음성 인식 및 감성 인지처리를 위해 메모리에 저장된 알고리즘을 트리거링(Trigering)) 하여 음성파일을 스피커로 전달하여 소리를 외부에 전달한다.

또 마이크를 통하여 입력된 아이의 아날로그 음성데이터를 ADC처리하여 디지털형태로 메모리에 저장한 후 이를 사례기반 추론 시스템(301) 모듈의 스토리보드DB(400) 내용을 기반으로 음성 감정 분석 알고리즘으로 CPU가 연산처리, 데이터를 분석하여 해당 음성의 대화자 감정상태가 어떤지를 구분하게 된다.

그리고 연예인 Photo Card에 있는 아래 QR코드나 인물 사진을 카메라로 인식하여 CPU(300)에서 해당 코드 값을 읽어들여 거기에 맞는 AR영상 APK파일을 CPU가 구동하여 화면에 AR / MR영상을 디스플레이 하게 한다.

도 2는 인공지능 부분을 자세히 표시한 도표다. 사용자가 질문(100)을 하면 질문 내용을 음성인식시스템(200)이 인식을 하고 이를 즉시 인공지능 시스템 내에 있는 CBR 시스템(301)이 가장 적절한 답변을, AR / MR기술을 적용하여 보다 시각적으로 나타내진 연예인 아바타가 사용자인 Fan에게 음성으로 답변을 한다. 즉 질문 내용에 대한 가장 적절한 답을 위해서는 이 질문이나 대화내용을 분석하고, 감정인식 시스템(303)으로부터 입수된 감정코드를 읽어 스토리보드(400)를 참조하고 판단하되, 감정을 실은 가장 적합한 답변을 결정하여 사용자에게 음성으로 들려준다. (304) 이때 감정을 포함하여 사용자가 질문 등을 말할 때 특정 연예인의 목소리로 시스템에서 대화를 하게 해주는 바, 이는 Memory 내에 있는 개인목소리 재생 시스템 DB(309)에서 해당 특정 연예인의 음색을 찾아 이를 활용 해당 연예인의 목소리로 재생 출력(304)하여 쌍방향 대화를 할 수 있도록 한다. 또한 해당 연예인은 동시에 스토리보드 내용에 신경을 써야 한다. 정기적으로 사용자 (Fan)가 질문한 내용을 확인하여 답변이 제대로 전달되지 않았을 경우에는 추가로 답변 내용을 스토리보드 내 DB에 추가하거나 보완(403)해야 될 것이다.

도 3은 인공지능 시스템이 사용자에게 들려줄 답변 생성과정을 보다 상세히 제시한 도표이다. 즉 음성인식 엔진(200)에서 인식된 결과가 Text 로 확정하는 과정에서, 감정인식시스템으로부터 전달된 감정코드(305)를 포함 음성내용을 확정(306)한다. 이후 CBR 시스템을 이용 가장 적합한 답변을 선정하기 위해 스토리보드 내 질문사례들을 대상 유사도검색(307)을 하고, 감정코드를 대입(308)한 후 이 질문에 가장 적합한 답변을 스토리보드에서 검색 확인하게 된다. 이 후 이를 음성재생 시스템(304)을 통해 감정을 포함한 주인공 음성으로 들려준다. (309)

또한 해당 연예인은 정기적으로 사용자 (Fan)가 질문한 내용을 확인하여 답변이 스토리보드 내에 없어 답변을 못하거나, 답변이 불명확하여 제대로 전달되지 않아 Fan이 불편을 표시할 경우에는 답변 내용을 Memory 내에 있는 스토리보드 내 DB에 추가하거나 보완(403)해야 될 것이다.

Fan이 자신이 좋아하는 특정 연예인과의 만남의 방식은 직접 공연장을 방문 어렵게 해당 연예인과 만나 인사만 나누거나 얼굴을 본다든가 하는 방식으로 한정되어 왔다. 본 발명은 Fan들이 해당 연예인에게 자신의 생각을 표현하고 싶은 욕망을 만족시키고 그의 답변을 들으며, 현장에서 대화하는 분위기를 제공하는 방식을 적용하려고 한다. 또한 좋아하는 연예인의 모습을 AR / MR 기술을 활용하여 독자가 스마트폰 등 단말기 화면에서 해당 언예인이 AR / MR로 구현되고, 자신의 Fan인 사용자와 대화를 하면서, 음성인식 시스템을 통해 사용자의 질문, 의견 등 대화 내용을 음성인식을 하고 이를 분석 감정을 인식하고, 연예인이 시스템을 통해 언제라도 자신의 Fan인 사용자의 감정에 대응하여 자신의 감정을 포함 적절한 톤으로 표현하되, 인공지능 기술인 CBR(사레기반추론)시스템을 통해 적절한 답변을 선택하여 응답을 하도록 하는 인공지능을 적용한 쌍방향 대화시스템에 관한 것이다.

이를 위해서는 본 발명은 특정 연예인과 사용자(Fan)의 대화 시 사용자가 말한 내용에 대하여 시스템은 적절한 음성인식을 하여야 하고, 억양과 말의 강약, 속도를 통해 화자의 감정을 인식하고, 인공지능 기술을 통해 적절한 분류를 하며, 또한 미리 작성한 스토리 보드 내용에 의거, 화자 감정에 걸맞은 대응 대화 내용을 사례기반추론시스템을 통해 적절히 선정하여 특정 연예인 아바타가 사용자에게 대답을 하도록 하는 대화형 시스템이다.

100: 사용자
200: 음성인식 엔진
300: 인공지능 시스템CPU
301: 사례기반 추론(CBR)엔진
302: 특정인(연예인 등) 답변 편집기
303: 감정인식 시스템
304: 음성 답변 재생 출력
305: 감정인식 결과 Code 분류 처리
306: 감정코드 포함 음성내용 확정
307: 질문 내용 유사도 검색
308: 감정코드 적용 답변 선정
309: 답변 음성화 출력 처리
400: Memory 내에 있는 스토리보드 DB
401: 감정인식 코드화 처리 기준 Data
402: Memory 내에 있는 증강현실(AR)/ MR DB
403: Memory 내에 있는 스토리보드 DB 보완시스템
500: 대화진행 결과 저장

Claims

연예인 등 특정인물에게 비대면 상태에서 사용자가 질문을 하거나 대화를 하고 싶을 경우, 특정 연예인 사진의 QR 코드를 단말기로 인식하면, 증강현실(AR) / MR 기술을 활용 연예인이 단말기 화면에 보이게 하고, 사용자가 질문 시 그 내용을 시스템이 음성인식을 하고, 음성 및 얼굴표정으로 감정인식을 하며, 인공지능 시스템인 CBR 시스템이 작동하여, 아바타가 답변 시 가장 적절하게 감정 상태가 포함된 답변내용을 결정 하여 사용자에게 음성으로 대응하는 방식인, 화면장치와 연동되는 대화형 인공지능 시스템.
제 1항에 있어서,
상기 시스템은 사용자의 질문 시 음성을 분석하여 감정을 인식하는 바, 이를 인공지능 시스템에 적용하기 위하여 독자 음성의 강약, 장단, 엑센트 등을 분석하여 구분한다. 또한 사용자의 얼굴표정의 영상데이터를 분석 감정을 효율적으로 분류 음성과 얼굴표정을 통해 화자 감정 상태를 결정 코드(Code)화 하여, 인공지능 시스템이 가장 적합한 감정을 선택 연예인 아바타가 사용자에게 답변시 적용토록 하는 인공지능 시스템.
제 1항에 있어서,
상기 시스템은 사용자의 질문에 가장 적합한 답변을 위해 사례기반추론(CBR)시스템을 활용 검색하되 미리 준비된 스토리보드 DB에서 질문내용의 답변을 위해 답변 사례베이스를 유사도 검색, 가장 적합한 답변내용을 선택 제시하고, 음성인식 및 얼굴 표정인식 시 확인된 감정Code를 적용 가장 적합한 답변내용 및 감정을 선택 이를 편집하여 답변을 준비토록 하는 인공지능 시스템.
제 1항에 있어서,
상기 시스템은 사용자가 연예인의 답변 내용에 대한 평가를 하되, 사용자의 다음 대화에 대한 감정인식을 통해 반응을 확인할 수 있도록 하며, 이러한 피드백(Feed Back) 처리를 통해 시스템이 주는 답변이 적합하지 않다고 판단 시 이를 모아 정기적으로 연예인 또는 스토리보드 제작자에게 통보한다. 또한 준비가 안 된 예상치 못한 질문이 있을 시 이에 대한 연예인의 답변도 스토리보드 DB 에 추가로 저장토록 하여 사용자 만족을 얻도록 답변 내용이 계속 진화하도록 한 인공지능 시스템.
사용자의 질문에 대한 답변 시 연예인이 자신의 목소리로 답변을 하도록 개인 고유의 음색을 시스템이 읽고 저장하며, 사용자의 질문에 대한 답변이나, 대화 시 이를 재생하여 연예인 자신의 고유한 목소리로 대응 가능하도록 한 인공지능 시스템.