KR20210156145A - 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템 - Google Patents

인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템 Download PDF

Info

Publication number
KR20210156145A
KR20210156145A KR1020200073906A KR20200073906A KR20210156145A KR 20210156145 A KR20210156145 A KR 20210156145A KR 1020200073906 A KR1020200073906 A KR 1020200073906A KR 20200073906 A KR20200073906 A KR 20200073906A KR 20210156145 A KR20210156145 A KR 20210156145A
Authority
KR
South Korea
Prior art keywords
user
voice
question
emotion
conversation
Prior art date
Application number
KR1020200073906A
Other languages
English (en)
Inventor
김훈
Original Assignee
김훈
(주)휴먼앤에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김훈, (주)휴먼앤에이아이 filed Critical 김훈
Priority to KR1020200073906A priority Critical patent/KR20210156145A/ko
Publication of KR20210156145A publication Critical patent/KR20210156145A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Toxicology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 인공지능(AI: Artificial Intelligence)과 증강현실(AR: Augmented Reality) / MR(Mixed Reality) 기술을 활용하여, 특정 가수나 배우, 탤런트 등과 대화하기를 원할 시 현장에서 직접 대화를 하지 않고서도 스마트폰이나 PC 등의 단말 시스템에서 이를 가능하게 할 수 있으며, 시스템 내에서 특정인과 자연스럽게 대화를 나눌 수 있도록 음성인식 시스템 및 감정인식 시스템을 활용하는 대화 시스템이다. 즉 PC 나 스마트폰 등 단말기 화면을 통해 증강현실 또는 혼합현실로 나타나는 특정인과 사용자가 쌍방 간 대화를 한다. 사용자가 질문 등을 하면 시스템은 음성인식 시스템을 통해 사용자의 질문, 의견 등 대화내용을 음성인식 하고 이를 분석하여 감정을 인식한다. 또한 사용자 얼굴표정을 영상분석 감정을 추가로 인식하고, 이 결과를 이용하여 화자 감정을 Code화 하여 CBR 시스템에 전달한다. 이를 활용 인공지능 방식인 CBR 시스템은 감정을 포함한 적절한 답변을 구성하고, 사전에 저장한 특정인의 음색을 활용 AR / MR로 표현된 특정인 아바타가 사용자에게 그의 목소리로 들려주도록 만든 쌍방간 대화시스템에 관한 것이다.

Description

인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템 {A voice recognition and emotion recognition based interactive conversation system using AI and AR technology}
본 발명은 인공지능(AI: Artificial Intelligence)기술의 하나인 CBR(Case Based Reasoning:사례기반추론)시스템을 활용하고, 음성인식 시스템 및 감정인식 시스템을 적용하여, 증강현실(AR: Augmented Reality)또는 MR(Mixed Reality)형태로 단말기 화면에 표현된 특정 연예인의 아바타와 사용자가 자연스럽게 대화할 수 있는 쌍방향 대화시스템에 관한 것이다.
일반적으로 가수나 탤런트 등 특정 여예인과 직접 대화하기는 공연이나 이벤트 현장에 가서도 어려운 일이다. 그러나 음성인식 기술, 인공지능 기술을 활용하면 시스템 내에서 가수 등 특정인과 대화도 가능할 수 있다. 특히 사용자의 음성을 분석하고, 얼굴 표정 영상 데이터를 세밀히 분석하면, 감정인식이 가능하며, 사용자의 질문에 시스템이 더욱 자연스럽게 대응할 수 있다.
이를 통해 사용자가 특정 연예인과 대화하기를 원할 시 현장에서 직접 대화를 하지 않고서도 시스템이 이를 가능하게 할 수 있다. 즉 PC나 스마트폰 등 단말기 화면을 통해 AR(증강현실)로 나타나는 특정 영예인과 사용자가 쌍방 간 대화를 하는데, 사용자가 질문한 내용에 대하여 적절한 음성인식을 하여야 하고, 억양과 말의 강약, 속도를 통해 화자의 감정을 인식 하고, 얼굴 표정 영상데이터를 분석 CBR 등의 인공지능 기술을 통해 적절한 감정분류를 하고 이들을 코드화 한다.
시스템 내에서 인식된 사용자의 감정상태에 대한 코드를 활용하고, 인공지능을 활용하여 감정 상태가 반영된 적절한 답변을 구성한다. 또한 미리 작성한 사용자의 예상 질문이나 대화에 연동하여 적절한 답변 스토리보드 내용을 대상으로 인공지능시스템이 유사도를 검색한다. 이후 사용자인 화자 감정에 걸맞는 대응 대화 내용을 선정하여, 시스템 내에서 AR(증강현실) 또는 MR로 화면에 표현된 특정 연예인 아바타가 사전에 저장한 해당자의 음색을 활용 그의 목소리로 사용자에게 대답을 하도록 만든 쌍방간 대화시스템에 관한 것이다.
현재 세계적으로 문화생활의 증대로 인해 배우, 탤런트, 가수의 인기가 높아가고 있는 상황이며, 세계적인 K-Pop의 인기에 힘입어 K-Pop 가수들에 열광하는 fan들의 열정이 크지만 현장에서 만나 대화를 나누기가 무척 어려운 실정이다. 특히 비대면 콘텐츠 수요가 증가함에 따라 팬들의 자기 자신들이 좋아하는 연예인에 대한 관심과 컨택 욕구를 충족시켜 주면서 가수 등 특정인에 대한 자연스러운 대화가 가능하도록 인공지능 시스템을 적용하는 것이 중요해졌다.
본 발명에서는 인공지능의 하나인 CBR 시스템을 활용하고, 음성인식시스템, 감정인식시스템, 증강현실(AR) 기술을 적용해 Fan과의 친밀도를 보다 높이기 위해서 사용자와 대화 대상인 특정인을 묘사한 AR 아바타 간 격의 없는 대화로 실제 당사자를 연상하며 특정인의 아바타와 감정을 나누며 자연스러운 대화를 할 수 있는 시스템을 제공함에 있다.
또한 사용자의 질문에 대한 답변이 충분하지 못하거나, 답변이 스토리보드에 없는 질문을 하게 되면, 정기적으로 특정인이 이를 확인 자신의 답변 의견을 직접 스토리보드에 올려, 추후 사용자의 질문에 적극적으로 대응하도록 하며, 보다 스마트하게 대화 시스템이 진화하도록 한다.
본 발명에서는 이러한 요구를 만족시키기 위한 시스템을 구축하되 사용자가 더욱 흥미를 갖게 하기 위해 가수 등 특정 대상자를 대신하는 AR로 표시된 아바타가 스마트폰 화면이나 노트북, PC 등의 화면에서 쌍방 간 자연스럽게 대화를 이어나가게 하려고 한다. 이를 위해서는 사용자의 음성을 인식하는 음성인식 시스템과, 이 음성을 분석하고 또한 얼굴 표정을 영상 분석하여 감정을 추출 Code화 하는 감정인식시스템과 이 결과를 Code화 하는 시스템이 필요하다.
가능한 모든 질문 내용을 미리 예측하여 감정까지 고려한 답변을 포함한 스토리보드를 시스템 내에 DB(Data Base)로 구축해 놓아야 할 것이며, 대화 대상자인 특정 연예인 아바타가 질문이나 의견에 적합한 답변을 하도록, AI 기능의 CBR시스템이 상기 모든 조건에 합당하도록 답변의 편집이 가능한 시스템이 구축되어야 하며, 또한 특정 대상자 아바타가 특정인의 목소리의 음색을 미리 학습하여, 대화 시 그 특정 대상자의 목소리로 답변하는 음성 변조시스템이 필요하다.
또한 사용자의 질문에 대한 답변이 충분하지 못하거나 답변이 없는 질문을 하게 되면, 정기적으로 가수 등 특정인이 이를 확인 자신의 답변 내용을 직접 스토리보드에 올려, 다음 사용자의 질문에 적극적으로 대응하도록 하며, 보다 스마트하게 시스템이 진화하도록 해야 한다.
본 발명은 가수 등 특정 연예인 등과 대화를 나누게 되어 공연이나 촬영 현장에서도 직접 대화가 어려워 사용자가 느낄 수 없는 연예인과의 친밀도를 높일 뿐 아니라, 대화 대상자인 특정인과 사용자와의 대화를 통해 가수 등 연예인이 Fan에게 보답하는 계기를 마련하게 되는 효과가 있다.
본 발명을 활용하여 특정 연예인이 자신의 명성을 지속적으로 유지 가능하도록 도움을 받을 수 있으며, 비대면 상황에서도 실제 팬사인회에서와 같이 가까이에서 Fan 과의 친밀도를 높여 계속 인기 유지 할 수 있다.
또한 사용자 입장에서 보면 공연 시에는 좋아하는 특정 연예인과 대화하는 기회를 가지기 어려우나, 본 발명을 통해 자유롭게 감정인식을 하면서 대화 대상자인 특정인의 자연스러운 얼굴과 신체모습을 보면서 목소리로 대화가 가능하여 사용자의 만족도가 높아진다.
도 1은 대화를 하려고 하는 사용자인 Fan과 특정 연예인 아바타 쌍방 간 대화를 진행 시 이루어지는 시스템 Process 다이어그램이다.
도 2는 인공지능 시스템에 특화하여 사용자가 질문을 할 때 시스템 내에서 진행하는 인공지능 알고리즘 프로세스를 보여주는 다이어그램이다.
도 3은 사용자의 질문 시 인공지능 시스템이 사용자에게 감정까지 넣어 적절한 답변을 해 주는 세부적인 답변생성 및 전달과정을 보여주는 다이어그램이다.
도 1은 사용자와 연예인 AR / MR 아바타 쌍방 간 대화를 진행 시 이루어지는 시스템 Process 다이어그램이다. 사용자가 질문을 하면 연예인 아바타가 AR / MR을 이용한 모델로 화면 위로 나타나 특정한 내용을 말하면 언제고 사용자는 본 발명 시스템을 통해 질문 등 대화를 할 수 있다. 이 경우 음성인식 및 감정인식 시스템이 가동되고, 미리 준비한 답변용 스토리보드를 기반으로 인공지능 시스템인 CBR(Case Based Reasoning:사례기반추론)시스템이 사용자의 말에 대한 답변을 적절히 구성하여 시스템을 통해 특정 연예인 아바타가 다시 답변하는 절차를 나타낸 예시도이다.
도 1이 구현되는 본 쌍방향 대화 시스템 활용을 위해서는, 사용자가 먼저 연예인 Photo Card(사진)등에 프린트 한 QR 코드나 인물 사진 자체를 스마트폰 등 단말기의 QR 코드 인식App 등으로 인식하도록 한다.
이 경우 특정 연예인 아바타가 스마트폰 화면에 AR / MR로 보여진다. 이후에 사용자가 질문을 하면 연예인 AR / MR 아바타가 응답을 하는 등 상호간 대화를 하게 된다.
사용자가 연예인 아바타와 대화를 하기를 원하면 도 1의 본 발명 시스템을 활용하면 된다. 즉 사용자(100)가 연예인 AR / MR 아바타와 대화 시, 음성으로 질문 등을 하면서 대화 시 사용자가 말하면, 음성인식 시스템 엔진(200)이 가동되고 시스템 CPU 에 있는 CBR(사례기반 추론) 시스템(301)이 Memory 내에 있는 스토리 보드 DB(400) 내용을 기반으로 음성을 분석 감정을 추출하는 바, 감정 분석은 소리의 강약. 길이, 속도 등으로 구분하여, 20여 가지로 분류 구분한다. 또한 사용자 얼굴 표정의 영상 데이터를 분석, 더욱 정교한 감정인식을 할 수 있다. 이를 적용 감정인식 결과를 Code화 처리(401)후 적절한 대응답변을 선택하기 위해 연예인 답변 AI 편집기(302)로 보내면, 이 시스템이 Memory 내에 있는 스토리 보드 DB(400)를 검색 적절한 답변으로 편집하게 된다. 이 답변 내용은 Memory 내에 있는 증강현실(AR) DB(402)에서 정해진 연예인 아바타가 AR / MR 시스템 화면을 통해 사용자에게 말하게 된다. 또한 이 결과물은 File화 하여, 사용자는 연예인과의 대화진행 결과물(500)Data로 보관할 수 있으며, 연예인 입장에서는 사용자의 질문이나 대화내용 등을 보관 시, 추후 Big Data 분석 자료로 활용되며, 사용자의 연예인과 대화한 자산으로 보관 가치가 있다.
시스템 구현 하드웨어는 CPU(300)와 연결되어 있으며, 이는 음성 인식 및 감성 인지처리를 위해 메모리에 저장된 알고리즘을 트리거링(Trigering)) 하여 음성파일을 스피커로 전달하여 소리를 외부에 전달한다.
또 마이크를 통하여 입력된 아이의 아날로그 음성데이터를 ADC처리하여 디지털형태로 메모리에 저장한 후 이를 사례기반 추론 시스템(301) 모듈의 스토리보드DB(400) 내용을 기반으로 음성 감정 분석 알고리즘으로 CPU가 연산처리, 데이터를 분석하여 해당 음성의 대화자 감정상태가 어떤지를 구분하게 된다.
그리고 연예인 Photo Card에 있는 아래 QR코드나 인물 사진을 카메라로 인식하여 CPU(300)에서 해당 코드 값을 읽어들여 거기에 맞는 AR영상 APK파일을 CPU가 구동하여 화면에 AR / MR영상을 디스플레이 하게 한다.
도 2는 인공지능 부분을 자세히 표시한 도표다. 사용자가 질문(100)을 하면 질문 내용을 음성인식시스템(200)이 인식을 하고 이를 즉시 인공지능 시스템 내에 있는 CBR 시스템(301)이 가장 적절한 답변을, AR / MR기술을 적용하여 보다 시각적으로 나타내진 연예인 아바타가 사용자인 Fan에게 음성으로 답변을 한다. 즉 질문 내용에 대한 가장 적절한 답을 위해서는 이 질문이나 대화내용을 분석하고, 감정인식 시스템(303)으로부터 입수된 감정코드를 읽어 스토리보드(400)를 참조하고 판단하되, 감정을 실은 가장 적합한 답변을 결정하여 사용자에게 음성으로 들려준다. (304) 이때 감정을 포함하여 사용자가 질문 등을 말할 때 특정 연예인의 목소리로 시스템에서 대화를 하게 해주는 바, 이는 Memory 내에 있는 개인목소리 재생 시스템 DB(309)에서 해당 특정 연예인의 음색을 찾아 이를 활용 해당 연예인의 목소리로 재생 출력(304)하여 쌍방향 대화를 할 수 있도록 한다. 또한 해당 연예인은 동시에 스토리보드 내용에 신경을 써야 한다. 정기적으로 사용자 (Fan)가 질문한 내용을 확인하여 답변이 제대로 전달되지 않았을 경우에는 추가로 답변 내용을 스토리보드 내 DB에 추가하거나 보완(403)해야 될 것이다.
도 3은 인공지능 시스템이 사용자에게 들려줄 답변 생성과정을 보다 상세히 제시한 도표이다. 즉 음성인식 엔진(200)에서 인식된 결과가 Text 로 확정하는 과정에서, 감정인식시스템으로부터 전달된 감정코드(305)를 포함 음성내용을 확정(306)한다. 이후 CBR 시스템을 이용 가장 적합한 답변을 선정하기 위해 스토리보드 내 질문사례들을 대상 유사도검색(307)을 하고, 감정코드를 대입(308)한 후 이 질문에 가장 적합한 답변을 스토리보드에서 검색 확인하게 된다. 이 후 이를 음성재생 시스템(304)을 통해 감정을 포함한 주인공 음성으로 들려준다. (309)
또한 해당 연예인은 정기적으로 사용자 (Fan)가 질문한 내용을 확인하여 답변이 스토리보드 내에 없어 답변을 못하거나, 답변이 불명확하여 제대로 전달되지 않아 Fan이 불편을 표시할 경우에는 답변 내용을 Memory 내에 있는 스토리보드 내 DB에 추가하거나 보완(403)해야 될 것이다.
Fan이 자신이 좋아하는 특정 연예인과의 만남의 방식은 직접 공연장을 방문 어렵게 해당 연예인과 만나 인사만 나누거나 얼굴을 본다든가 하는 방식으로 한정되어 왔다. 본 발명은 Fan들이 해당 연예인에게 자신의 생각을 표현하고 싶은 욕망을 만족시키고 그의 답변을 들으며, 현장에서 대화하는 분위기를 제공하는 방식을 적용하려고 한다. 또한 좋아하는 연예인의 모습을 AR / MR 기술을 활용하여 독자가 스마트폰 등 단말기 화면에서 해당 언예인이 AR / MR로 구현되고, 자신의 Fan인 사용자와 대화를 하면서, 음성인식 시스템을 통해 사용자의 질문, 의견 등 대화 내용을 음성인식을 하고 이를 분석 감정을 인식하고, 연예인이 시스템을 통해 언제라도 자신의 Fan인 사용자의 감정에 대응하여 자신의 감정을 포함 적절한 톤으로 표현하되, 인공지능 기술인 CBR(사레기반추론)시스템을 통해 적절한 답변을 선택하여 응답을 하도록 하는 인공지능을 적용한 쌍방향 대화시스템에 관한 것이다.
이를 위해서는 본 발명은 특정 연예인과 사용자(Fan)의 대화 시 사용자가 말한 내용에 대하여 시스템은 적절한 음성인식을 하여야 하고, 억양과 말의 강약, 속도를 통해 화자의 감정을 인식하고, 인공지능 기술을 통해 적절한 분류를 하며, 또한 미리 작성한 스토리 보드 내용에 의거, 화자 감정에 걸맞은 대응 대화 내용을 사례기반추론시스템을 통해 적절히 선정하여 특정 연예인 아바타가 사용자에게 대답을 하도록 하는 대화형 시스템이다.
100: 사용자
200: 음성인식 엔진
300: 인공지능 시스템CPU
301: 사례기반 추론(CBR)엔진
302: 특정인(연예인 등) 답변 편집기
303: 감정인식 시스템
304: 음성 답변 재생 출력
305: 감정인식 결과 Code 분류 처리
306: 감정코드 포함 음성내용 확정
307: 질문 내용 유사도 검색
308: 감정코드 적용 답변 선정
309: 답변 음성화 출력 처리
400: Memory 내에 있는 스토리보드 DB
401: 감정인식 코드화 처리 기준 Data
402: Memory 내에 있는 증강현실(AR)/ MR DB
403: Memory 내에 있는 스토리보드 DB 보완시스템
500: 대화진행 결과 저장

Claims (5)

  1. 연예인 등 특정인물에게 비대면 상태에서 사용자가 질문을 하거나 대화를 하고 싶을 경우, 특정 연예인 사진의 QR 코드를 단말기로 인식하면, 증강현실(AR) / MR 기술을 활용 연예인이 단말기 화면에 보이게 하고, 사용자가 질문 시 그 내용을 시스템이 음성인식을 하고, 음성 및 얼굴표정으로 감정인식을 하며, 인공지능 시스템인 CBR 시스템이 작동하여, 아바타가 답변 시 가장 적절하게 감정 상태가 포함된 답변내용을 결정 하여 사용자에게 음성으로 대응하는 방식인, 화면장치와 연동되는 대화형 인공지능 시스템.
  2. 제 1항에 있어서,
    상기 시스템은 사용자의 질문 시 음성을 분석하여 감정을 인식하는 바, 이를 인공지능 시스템에 적용하기 위하여 독자 음성의 강약, 장단, 엑센트 등을 분석하여 구분한다. 또한 사용자의 얼굴표정의 영상데이터를 분석 감정을 효율적으로 분류 음성과 얼굴표정을 통해 화자 감정 상태를 결정 코드(Code)화 하여, 인공지능 시스템이 가장 적합한 감정을 선택 연예인 아바타가 사용자에게 답변시 적용토록 하는 인공지능 시스템.
  3. 제 1항에 있어서,
    상기 시스템은 사용자의 질문에 가장 적합한 답변을 위해 사례기반추론(CBR)시스템을 활용 검색하되 미리 준비된 스토리보드 DB에서 질문내용의 답변을 위해 답변 사례베이스를 유사도 검색, 가장 적합한 답변내용을 선택 제시하고, 음성인식 및 얼굴 표정인식 시 확인된 감정Code를 적용 가장 적합한 답변내용 및 감정을 선택 이를 편집하여 답변을 준비토록 하는 인공지능 시스템.
  4. 제 1항에 있어서,
    상기 시스템은 사용자가 연예인의 답변 내용에 대한 평가를 하되, 사용자의 다음 대화에 대한 감정인식을 통해 반응을 확인할 수 있도록 하며, 이러한 피드백(Feed Back) 처리를 통해 시스템이 주는 답변이 적합하지 않다고 판단 시 이를 모아 정기적으로 연예인 또는 스토리보드 제작자에게 통보한다. 또한 준비가 안 된 예상치 못한 질문이 있을 시 이에 대한 연예인의 답변도 스토리보드 DB 에 추가로 저장토록 하여 사용자 만족을 얻도록 답변 내용이 계속 진화하도록 한 인공지능 시스템.
  5. 사용자의 질문에 대한 답변 시 연예인이 자신의 목소리로 답변을 하도록 개인 고유의 음색을 시스템이 읽고 저장하며, 사용자의 질문에 대한 답변이나, 대화 시 이를 재생하여 연예인 자신의 고유한 목소리로 대응 가능하도록 한 인공지능 시스템.
KR1020200073906A 2020-06-17 2020-06-17 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템 KR20210156145A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200073906A KR20210156145A (ko) 2020-06-17 2020-06-17 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200073906A KR20210156145A (ko) 2020-06-17 2020-06-17 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템

Publications (1)

Publication Number Publication Date
KR20210156145A true KR20210156145A (ko) 2021-12-24

Family

ID=79176392

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200073906A KR20210156145A (ko) 2020-06-17 2020-06-17 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템

Country Status (1)

Country Link
KR (1) KR20210156145A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973957A (zh) * 2022-06-02 2022-08-30 清华大学 智能相框及智能相框控制方法
CN116153330A (zh) * 2023-04-04 2023-05-23 杭州度言软件有限公司 一种智能电话语音机器人控制方法
CN116578692A (zh) * 2023-07-13 2023-08-11 江西微博科技有限公司 基于大数据的ai智能服务计算方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973957A (zh) * 2022-06-02 2022-08-30 清华大学 智能相框及智能相框控制方法
CN114973957B (zh) * 2022-06-02 2023-08-25 清华大学 智能相框及智能相框控制方法
CN116153330A (zh) * 2023-04-04 2023-05-23 杭州度言软件有限公司 一种智能电话语音机器人控制方法
CN116153330B (zh) * 2023-04-04 2023-06-23 杭州度言软件有限公司 一种智能电话语音机器人控制方法
CN116578692A (zh) * 2023-07-13 2023-08-11 江西微博科技有限公司 基于大数据的ai智能服务计算方法
CN116578692B (zh) * 2023-07-13 2023-09-15 江西微博科技有限公司 基于大数据的ai智能服务计算方法

Similar Documents

Publication Publication Date Title
US20210352380A1 (en) Characterizing content for audio-video dubbing and other transformations
US20200322399A1 (en) Automatic speaker identification in calls
KR20210156145A (ko) 인공지능 및 증강현실 기술을 활용한, 음성인식 및 감정인식 기반의 쌍방향 대화 시스템
CN105991847B (zh) 通话方法和电子设备
Schroder et al. Building autonomous sensitive artificial listeners
CN115668371A (zh) 对听觉和视觉会议数据分类以推断用户话语的重要性
CN108470188B (zh) 基于图像分析的交互方法及电子设备
Wang et al. Comic-guided speech synthesis
JP4077656B2 (ja) 発言者特定映像装置
Riviello et al. On the perception of dynamic emotional expressions: A cross-cultural comparison
Endrass et al. Talk is silver, silence is golden: A cross cultural study on the usage of pauses in speech
JP2004191407A (ja) 会話システム及び会話処理プログラム
KR20210117827A (ko) 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법
KR20200122916A (ko) 대화 시스템 및 그 제어 방법
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
CN113301352A (zh) 在视频播放期间进行自动聊天
CN116708951B (zh) 基于神经网络的视频生成方法和装置
KR102604277B1 (ko) 다자간 통화의 화자분리 stt를 이용한 복합 감정 분석 방법 및 이를 실행하는 시스템
Tong Speech to text with emoji
Novakovic Speaker identification in smart environments with multilayer perceptron
KR20220162484A (ko) 실제감을 위한 인공지능 대화제공 서비스 방법 및 장치
CN114745349B (zh) 一种点评方法、电子设备及计算机可读存储介质
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件
JP2002024371A (ja) 故人との仮想対話方法及びその装置
CN117423327B (zh) 基于gpt神经网络的语音合成方法和装置

Legal Events

Date Code Title Description
A201 Request for examination