KR102420564B1 - 정보 제공 방법 및 디바이스 - Google Patents

정보 제공 방법 및 디바이스 Download PDF

Info

Publication number
KR102420564B1
KR102420564B1 KR1020150172647A KR20150172647A KR102420564B1 KR 102420564 B1 KR102420564 B1 KR 102420564B1 KR 1020150172647 A KR1020150172647 A KR 1020150172647A KR 20150172647 A KR20150172647 A KR 20150172647A KR 102420564 B1 KR102420564 B1 KR 102420564B1
Authority
KR
South Korea
Prior art keywords
information
speech
participant
virtual
communication terminal
Prior art date
Application number
KR1020150172647A
Other languages
English (en)
Other versions
KR20160100811A (ko
Inventor
쉬에 웬
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP16752649.0A priority Critical patent/EP3259754B1/en
Priority to PCT/KR2016/001488 priority patent/WO2016133319A1/en
Priority to US15/044,467 priority patent/US10468052B2/en
Publication of KR20160100811A publication Critical patent/KR20160100811A/ko
Application granted granted Critical
Publication of KR102420564B1 publication Critical patent/KR102420564B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)

Abstract

정보를 제공하는 방법 및 디바이스가 제공된다. 정보를 제공하는 방법은 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 통신 단말을 통해 획득하는 단계; 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득하는 단계; 스피치 정보 및 상태 정보에 기초하여 적어도 하나의 참여자에게 제공될 가상 스피치를 결정하는 단계; 및 결정한 가상 스피치를 출력하는 단계를 포함한다.

Description

정보 제공 방법 및 디바이스 {Method and device for providing information}
본 개시는 정보를 제공하는 디바이스 및 방법에 관한 것으로서, 보다 상세하게는, 스피치 정보를 제공하는 디바이스 및 방법에 관한 것이다.
전자 기술의 발전과 함께 스마트폰, PC, 태블릿 컴퓨터 등을 이용한 통화가 일상적인 일이 되었다. 또한, 통화는 두 사람간에 이루어지는 것이 일반적이다. 통화에서는 음성을 통해 의사 소통이 수행되는 것이 일반적이다.
또한, 음성 인식 기술과 관련하여, 사용자의 음성을 입력으로 수신하여 수신한 사용자 음성을 분석하고, 수신한 사용자의 음성에 대응되는 출력을 생성하는 방법이 이용되고 있다.
구체적으로, 음성 인식 (speech recognition) 기술이란 인간이 발화한 음성과 같은 음향학적 신호 (acoustic speech signal)를 컴퓨터가 분석해 이를 인식 또는 이해하는 기술로서, 발성된 음성을 전기신호로 변환한 후 음성신호의 주파수 특성을 추출하는 등의 방식으로 발음을 인식하는 기술이다.
컴퓨터의 보급과 사용자의 증가로 인하여 교육, 게임, 업무 등 일상에서 널리 컴퓨터가 활용되고 있으며, 최근 컴퓨터 기술의 발달로 인해 컴퓨터를 이용한 다양한 기술들이 개발되고 있다. 또한, 컴퓨터와 컴퓨터를 이용하는 음성인식 기술은 다양한 분야에서 이용되고 있다.
전자 기술의 발전과 함께 스마트폰, PC, 태블릿 컴퓨터 등을 이용한 통화가 일상적인 일이 되었다. 또한, 통화는 두 사람간에 이루어지는 것이 일반적이다. 통화에서는 음성을 통해 의사 소통이 수행되는 것이 일반적이다.
또한, 음성 인식 기술과 관련하여, 사용자의 음성을 입력으로 수신하여 수신한 사용자 음성을 분석하고, 수신한 사용자의 음성에 대응되는 출력을 생성하는 방법이 이용되고 있다.
구체적으로, 음성 인식 (speech recognition) 기술이란 인간이 발화한 음성과 같은 음향학적 신호 (acoustic speech signal)를 컴퓨터가 분석해 이를 인식 또는 이해하는 기술로서, 발성된 음성을 전기신호로 변환한 후 음성신호의 주파수 특성을 추출하는 등의 방식으로 발음을 인식하는 기술이다.
컴퓨터의 보급과 사용자의 증가로 인하여 교육, 게임, 업무 등 일상에서 널리 컴퓨터가 활용되고 있으며, 최근 컴퓨터 기술의 발달로 인해 컴퓨터를 이용한 다양한 기술들이 개발되고 있다. 또한, 컴퓨터와 컴퓨터를 이용하는 음성인식 기술은 다양한 분야에서 이용되고 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 1 측면은 정보 제공 방법에 있어서, 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 상기 통신 단말을 통해 획득하는 단계; 상기 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 상기 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득하는 단계; 상기 스피치 정보 및 상기 상태 정보에 기초하여 상기 적어도 하나의 참여자에게 제공될 가상 스피치를 결정하는 단계; 및 상기 결정된 가상 스피치를 출력하는 단계를 포함할 수 있다.
또한, 상기 스피치 정보를 상기 통신 단말을 통해 획득하는 단계는 상기 적어도 하나의 참여자에 대한 정보를 획득하기 위해 문의하는 가상 스피치를 출력하는 단계; 및 상기 문의하는 가상 스피치를 통해 획득된 추가 스피치 정보를 포함하는 상기 스피치 정보를 획득하는 단계를 포함할 수 있다.
또한, 상기 상태 정보는 상기 적어도 하나의 참여자의 현재 감정 상태를 나타내는 감정 정보(emotion information), 상기 적어도 하나의 참여자의 인적 정보(personal information), 상기 대화에 대한 주제 정보(topic information), 상기 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 상기 적어도 하나의 참여자의 성격 정보(personality information) 중 적어도 하나를 포함할 수 있다.
또한, 상기 스피치 정보는 상기 통신 단말이 획득하는 상기 적어도 하나의 참여자의 음성 정보를 포함할 수 있다.
또한, 상기 가상 스피치를 결정하는 단계는 상기 스피치 정보를 이용하여 상기 가상 스피치의 컨텐츠를 획득하는 단계; 상기 상태 정보를 이용하여 상기 가상 스피치의 표현 방식을 결정하는 단계; 및 상기 획득한 컨텐츠가 상기 결정된 표현 방식으로 표현되는 상기 가상 스피치를 획득하는 단계를 포함할 수 있다.
또한, 상기 가상 스피치를 결정하는 단계는 상기 스피치 정보가 기설정된 키워드를 포함하는지 여부를 결정하는 단계; 및 상기 스피치 정보가 상기 기설정된 키워드를 포함하는 경우, 상기 대화의 주제와 상이한 주제에 대한 컨텐츠를 포함하는 상기 가상스피치를 획득하는 단계를 포함할 수 있다.
또한, 상기 상태 정보는 상기 적어도 하나의 참여자의 감정 정보를 포함하고,
상기 가상 스피치를 결정하는 단계는 상기 감정 정보에 따라 결정된 컨텐츠 및 표현 방식의 상기 가상 스피치를 획득할 수 있다.
또한, 상기 감정 정보는 감정의 종류에 대한 정보 및 감정의 레벨에 대한 정보를 포함할 수 있다.
또한, 상기 가상 스피치를 결정하는 단계는 상기 적어도 하나의 참여자의 감정 상태가 비정상적인지 여부를 상기 감정 정보를 이용하여 결정하는 단계; 및 상기 감정 상태가 비정상적이라고 결정된 경우, 상기 대화의 주제와 상이한 주제에 대한 컨텐츠를 포함하는 상기 가상 스피치를 획득하는 단계를 포함할 수 있다.
또한, 상기 감정 상태가 비정상적인지 여부를 결정하는 단계는 상기 적어도 하나의 참여자의 감정의 종류 및 상기 종류의 감정이 지속된 시간에 기초하여 상기 감정 상태가 비정상적인지 여부를 결정할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 2측면은 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 획득하고, 상기 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 상기 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득하고, 상기 스피치 정보 및 상기 상태 정보에 기초하여 상기 적어도 하나의 참여자에게 제공될 가상 스피치를 결정하는 제어부; 및 상기 결정한 가상 스피치를 출력하는 출력부를 포함할 수 있다.
또한, 상기 출력부는 상기 적어도 하나의 참여자에 대한 정보를 획득하기 위해 문의하는 가상 스피치를 출력하고, 상기 제어부는 상기 문의하는 가상 스피치를 통해 획득된 추가 스피치 정보를 포함하는 상기 스피치 정보를 획득할 수 있다.
또한, 상기 상태 정보는 상기 적어도 하나의 참여자의 현재 감정 상태를 나타내는 감정 정보(emotion information), 상기 적어도 하나의 참여자의 인적 정보(personal information), 상기 대화에 대한 주제 정보(topic information), 상기 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 상기 적어도 하나의 참여자의 성격 정보(personality information) 중 적어도 하나를 포함할 수 있다.
또한, 상기 스피치 정보는 상기 통신 단말이 획득하는 상기 적어도 하나의 참여자의 음성 정보를 포함할 수 있다.
또한, 상기 제어부는 상기 스피치 정보를 이용하여 상기 가상 스피치의 컨텐츠를 획득하고, 상기 상태 정보를 이용하여 상기 가상 스피치의 표현 방식을 결정하고, 상기 획득한 컨텐츠가 상기 결정된 표현 방식으로 표현되는 상기 가상 스피치를 획득할 수 있다.
또한, 상기 제어부는 상기 스피치 정보가 기설정된 키워드를 포함하는지 여부를 결정하고, 상기 스피치 정보가 상기 기설정된 키워드를 포함하는 경우, 상기 대화의 주제와 상이한 주제에 대한 컨텐츠를 포함하는 상기 가상스피치를 획득할 수 있다.
또한, 상기 상태 정보는 상기 적어도 하나의 참여자의 감정 정보를 포함하고, 상기 제어부는 상기 감정 정보에 따라 결정된 컨텐츠 및 표현 방식의 상기 가상 스피치를 획득할 수 있다.
또한, 상기 감정 정보는 감정의 종류에 대한 정보 및 감정의 레벨에 대한 정보를 포함할 수 있다.
또한, 상기 제어부는 상기 적어도 하나의 참여자의 감정 상태가 비정상적인지 여부를 상기 감정 정보를 이용하여 결정하고, 상기 감정 상태가 비정상적이라고 결정된 경우, 상기 대화의 주제와 상이한 주제에 대한 컨텐츠를 포함하는 상기 가상 스피치를 획득할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 3측면은 정보 제공 통신 단말에 있어서, 상기 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 획득하고, 상기 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 상기 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득하고, 상기 스피치 정보 및 상기 상태 정보에 기초하여 상기 적어도 하나의 참여자에게 제공될 가상 스피치를 결정하는 제어부; 및 상기 결정한 가상 스피치를 출력하는 출력부를 포함할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 4측면은 정보 제공 서버에 있어서, 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 획득하고, 상기 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 상기 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득하고, 상기 스피치 정보 및 상기 상태 정보에 기초하여 상기 적어도 하나의 참여자에게 제공될 가상 스피치를 결정하는 제어부; 및 상기 결정한 가상 스피치를 출력하는 출력부를 포함할 수 있다.
또한, 본 개시의 제 5 측면은 제 1 측면의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 비일시적 기록매체를 제공할 수 있다.
도 1은 일 실시 예에 따른 디바이스가 정보를 제공하는 일례를 도시한 도면이다.
도 2는 일 실시 예에 따른 디바이스가 가상 스피치를 획득하는 방법의 흐름도이다.
도 3은 일 실시 예에 따른 디바이스가 가상 스피치를 획득하여 출력하는 방법의 흐름도이다.
도 4는 일 실시 예에 따른 디바이스가 스피치 정보 및 상태 정보를 이용하여 가상 스피치를 획득하는 방법의 흐름도이다.
도 5는 일 실시 예에 따른 디바이스가 스피치 정보에 기설정된 키워드가 포함되는지 여부에 따라서 가상 스피치를 획득하는 방법의 흐름도이다.
도 6은 일 실시 예에 따른 디바이스가 감정 정보에 기초하여 가상 스피치를 획득하는 방법의 흐름도이다.
도 7은 일 실시 예에 따른 디바이스가 스피치 정보에 포함된 키워드를 이용하여 가상 스피치를 획득하는 일례를 도시한 도면이다.
도 8은 일 실시 예에 따른 디바이스가 스피치 정보에 포함된 키워드를 이용하여 가상 스피치를 획득하는 일례를 도시한 도면이다.
도 9는 일 실시 예에 따라 정보를 제공하는 디바이스의 구성을 나타내는 블록도이다.
도 10은 일 실시 예에 따른 수신부의 구성을 나타내는 블록도이다.
도 11은 일 실시 예에 따른 제어부의 구성을 나타내는 블록도이다.
도 12는 일 실시 예에 따른 음성 합성부의 구성을 나타내는 블록도이다.
도 13은 일 실시 예에 따른 제어부의 구성을 나타내는 블록도이다.
도 14는 일 실시 예에 따른 제어부의 구성을 나타내는 블록도이다.
도 15는 일 실시 예에 따른 데이터 베이스의 구성을 나타내는 블록도이다.
도 16은 일 실시 예에 따른 데이터 베이스의 구성을 나타내는 블록도이다.
도 17은 일 실시 예에 따른 감정 정보의 일례를 나타내는 도면이다.
도 18은 일 실시 예에 따른 서버가 정보를 제공하는 일례를 도시한 도면이다.
도 19는 일 실시 예에 따른 통신 단말이 정보를 제공하는 일례를 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명과 관련된 전자 기기에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 명세서에서 본 발명의 원리의 "일 실시 예" 또는 "실시 예"라는 것은 본 발명의 원리의 적어도 하나의 실시 예에 포함되는 실시 예와 함께 설명된 특별한 특성, 구조, 특징 등을 의미하는 것이다. 그러므로, 본 명세서 전반에 걸쳐 다양한 곳에 등장하는 "일 실시 예에서" 또는 "실시 예에서"라는 어구의 등장은 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
도 1은 일 실시 예에 따른 디바이스(100)가 정보를 제공하는 일례를 도시한 도면이다.
통화는 2인간에 수행될 수도 있고, 3인간에 수행될 수 있다. 예를 들면, 제1 통신 단말(110) 및 제2 통신 단말(120)을 이용하여 2인간의 통화가 수행될 수 있고, 다른 예로, 제1 통신 단말(110), 제2 통신 단말(120) 및 디바이스(100)를 이용하여 3자간의 통화가 수행될 수 있다.
2인간의 통화가 수행되는 경우, 긴장감, 불편함 등이 유발될 수 있으나, 3인간의 통화가 수행되는 경우, 상대적으로 긴장감, 불편함 등이 해소될 수 있다. 예를 들면, 일 실시 예에 따라, 제1 통신 단말(110)과 제2 통신 단말(120)을 통한 2인간의 통화가 수행되는 도중에 디바이스(100)가 3번째 참여자로서 통화에 참여하는 경우, 폐쇄되고 맞대응(tit-for-tat)하는 2인 통화의 분위기가 진정된 분위기로 전환될 수 있다. 일 실시 예에 따른 디바이스(100)에 의해 통화에 참여하는 3번째 참여자는 가상 캐릭터일 수 있다. 예를 들면, 디바이스(100)에 의해 제1 통신 단말 또는 제2 통신 단말로 전송되는 음성 신호는 가상 캐릭터의 가상 스피치일 수 있다.
일 실시예에 따라 디바이스(100)는 제1통신 단말(110)이나 제2통신 단말(120)과는 별도의 서버로 구현되어 제1통신 단말(110)과 제2통신 단말(120)사이의 통신에 개입할 수 있다.
일 실시예에 따라 디바이스(100)는 제1통신 단말(110)의 내부에 배열되어 제1통신 단말(110)과 제2통신 단말(120)사이의 통신에 개입할 수 있다.
일 실시예에 따라 디바이스(100)는 제2통신 단말(120)의 내부에 배열되어 제1통신 단말(110)과 제2통신 단말(120)사이의 통신에 개입할 수 있다.
도 2는 일 실시 예에 따른 디바이스(100)가 가상 스피치를 획득하는 방법의 흐름도이다.
단계 S210에서 일 실시 예에 따른 디바이스(100)는 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 통신 단말을 통해 획득한다.
일 실시 예에 따른 스피치 정보는 음성 신호를 통해 획득되는 정보를 포함할 수 있다. 예를 들면, 스피치 정보는 통신 단말을 통해 수신되는 통신 단말 사용자의 음성 신호로부터 획득되는 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말 사용자의 음성 신호의 분석을 통해 획득되는 키워드 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말 사용자의 음성 신호의 분석을 통해 획득되는 목소리 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말이 획득하는 적어도 하나의 참여자의 음성 정보를 포함할 수 있다.
일 실시 예에 따른 디바이스(100)는 하나 이상의 통신 단말로부터 스피치 정보를 획득할 수 있다. 예를 들면, 디바이스(100)는 제1 통신 단말 및/또는 제2 통신 단말로부터 스피치 정보를 획득할 수 있다.
일 실시 예에 따른 통신 단말은 마이크와 스피커를 포함할 수 있다. 또한, 일 실시 예에 따른 통신 단말은 스마트폰, 태플릿 컴퓨터, 개인 디지털 기기, 랩탑 컴퓨터, 데스크탑 컴퓨터 등을 포함할 수 있으며, 이에 제한되지 않는다.
일 실시 예에 따른 디바이스(100)에 스피치 정보를 제공하는 통신 단말은 통화 기능을 수행할 수 있다. 일 실시 예에 따른 통신 단말은 통화에 로컬(local) 통신 단말 또는 원거리(remote) 통신 단말을 포함할 수 있다. 예를 들면, 제1 통신 단말은 로컬 통신 단말이고, 제2 통신 단말은 원거리 통신 단말일 수 있다. 일 실시 예에 따른 디바이스(100)는 서버 형태로 구현될 수도 있고, 통신 단말에 포함된 형태로 구현될 수도 있고, 통신 단말의 외부에 위치하는 별개의 디바이스로 구현될 수도 있다.
일 실시 예에 따른 디바이스(100)는 통신 단말을 통해 획득된 음성 신호를 분석하여 스피치 정보를 획득할 수 있다.
또는 일 실시 예에 따른 통신 단말이 음성 신호를 획득하고, 획득한 음성 신호를 분석한 결과를 디바이스(100)에 전송할 수 있다. 디바이스(100)는 통신 단말로부터 수신한 음성 신호 분석 결과를 이용하여 스피치 정보를 획득할 수 있다.
통신 단말 또는 디바이스(100)는 음성 신호를 수신할 수 있다. 예를 들면, 사용자의 음성 신호를 통신 단말의 마이크를 통해 수신할 수 있다. 예를 들면, 제1 통신 단말의 사용자의 음성 신호를 제1 통신 단말의 마이크를 통해 수신한 경우, 디바이스(100)는 제1 통신 단말을 통해 제1 통신 단말 사용자의 음성 신호를 획득할 수 있다. 다른 예로, 제2 통신 단말의 사용자의 음성 신호를 제2 통신 단말의 마이크를 통해 수신한 경우, 디바이스(100)는 제2 통신 단말을 통해 제2 통신 단말 사용자의 음성 신호를 획득할 수 있다. 다른 예로, 로컬 통신 단말의 사용자의 음성 신호를 로컬 통신 단말의 마이크를 통해 수신한 경우, 디바이스(100)는 로컬 통신 단말을 통해 로컬 통신 단말 사용자의 음성 신호를 획득할 수 있다. 다른 예로, 원거리 통신 단말의 사용자의 음성 신호를 원거리 통신 단말의 마이크를 통해 수신한 경우, 디바이스(100)는 원거리 통신 단말을 통해 원거리 통신 단말 사용자의 음성 신호를 획득할 수 있다.
원거리 통신 단말로 입력된 사용자의 음성 신호는 무선 연결 또는 유선 연결을 통해서 디바이스(100) 또는 로컬 통신 단말로 전송될 수 있다. 넌-오디오 정보(예: 악보)는 키보드나 버튼 입력 등을 통해 편집되거나, 오디오 정보로 변환될 수 있다.
무선 연결은 2G/3G/4G 연결, WiFi 연결, 블루투스 연결, WiMAX 연결, 지그비 연결, UWB(울트라 와이드밴드) 및 현재 알려진 또는 미래에 개발된 다른 무선 연결을 포함하나 이에 제한되지 않는다.
단계 S220에서 일 실시 예에 따른 디바이스(100)는 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득한다.
일 실시 예에 따른 상태 정보는 적어도 하나의 참여자 및/또는 가상 캐릭터의 현재 감정 상태를 나타내는 감정 정보(emotion information), 적어도 하나의 참여자 및/또는 가상 캐릭터의 인적 정보(personal information), 대화에 대한 주제 정보(topic information), 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 적어도 하나의 참여자 및/또는 가상 캐릭터의 성격 정보(personality information) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 감정 정보는 감정의 종류에 대한 정보 및 감정의 레벨에 대한 정보를 포함할 수 있다. 감정의 종류는 감정 상태는 기쁨(elation), 화(anger), 슬픔(sorrow), 우울(depression) 및 온화(mildness) 등을 포함할 수 있으며 이에 제한되지 않는다.
일 실시 예에 따른 디바이스(100)는 단계 S210에서 획득한 스피치 정보를 이용하여 상태 정보를 획득할 수 있다.
예를 들면, 제1 통신 단말이 “오늘 감기 기운이 있네.”라는 음성 신호를 획득한 경우, 제1 통신 단말이 획득한 음성 신호로부터 획득한 스피치 정보를 통해 디바이스(100)는 제1 통신 단말의 사용자의 현재 건강 상태에 대한 정보를 획득할 수 있다. 다른 예로, 원거리 통신 단말이 “어제 친구와 싸웠어.”라는 음성 신호를 획득한 경우, 디바이스(100)는 원거리 통신 단말이 획득한 음성 신호를 무선 연결을 통해 수신하고, 현재 원거리 통신 단말의 사용자의 감정 상태가 불편할 수 있다는 상태 정보를 획득할 수 있다.
일 실시 예에 따른 디바이스(100)는 기저장된 데이터를 이용하여 상태 정보를 획득할 수 있다.
예를 들면, 기저장된 사용자의 생년월일 정보를 통해 사용자의 나이 정보를 획득할 수 있다. 기저장된 데이터는 디바이스(100)에 저장되어 있을 수도 있고, 통신 단말에 저장되어 있을 수도 있고, 서버에 저장되어 있을 수도 있다.
일 실시 예에 따른 디바이스(100)는 단계 S210에서 획득한 스피치 정보 및 기저장된 데이터를 이용하여 상태 정보를 획득할 수 있다.
예를 들면, A 사용자와 B 사용자에 대한 데이터가 기저장되어 있고, A 사용자가 B 사용자를 아버지라고 부르는 경우, A 사용자와, B 사용자와의 관계가 부자관계라는 사용자들 간의 관계에 대한 상태 정보를 디바이스(100)는 획득할 수 있다.
일 실시 예에 따른 획득된 상태 정보는 통신 단말의 메모리, 디바이스(100)의 메모리 또는 서버(미도시) 등에 저장될 수 있다. 예를 들면, 상태 정보는 로컬 통신 단말 및/또는 원거리 통신 단말에 저장될 수 있다. 다른 예로, 상태 정보는 디바이스(100)의 내부 또는 외부 메모리, 또는 디바이스(100)와 연결된 서버에 저장될 수 있다.
상태 정보가 서버에 저장되어 있는 경우, 통신 단말 또는 디바이스(100)는 유/무선 연결을 통해 상태 정보를 서버로부터 획득할 수 있다.
단계 S230에서 일 실시 예에 따른 디바이스(100)는 스피치 정보 및/또는 상태 정보에 기초하여 적어도 하나의 참여자에게 제공될 가상 스피치를 획득 또는 결정한다. 예를 들면 일 실시 예에 따른 디바이스(100)는 복수개의 가상 스피치 중 하나를 참여자에게 제공될 가상 스피치로 결정할 수도 있고, 참여자에게 제공될 가상 스피치를 생성할 수도 있다.
일 실시예에 따른 가상 스피치는 단계 S210에서 획득한 스피치 정보 및 단계 S220에서 획득한 상태 정보에 따라 결정될 수 있다.
일 실시 예에 따라 디바이스(100)는 가상 캐릭터를 통해 가상 스피치를 제공할 수 있다. 일 실시 예에 따라 디바이스(100)는 가상 캐릭터의 성별, 성격, 말투 등에 기초하여 가상 스피치를 결정할 수 있다.
일 실시 예에 따른 디바이스(100)는 상태 정보에 따라 가상 캐릭터의 성격, 말투 등을 결정할 수 있고, 가상 캐릭터의 성격 등은 변경되는 상태 정보에 따라 변경될 수 있다.
일 실시 예에 따른 상태 정보는 성격 변수(personality variable) 및/또는 상태 변수(state variable)를 포함할 수 있다. 예를 들면, 일 실시 예에 따른 상태 정보는 성격 변수 및/또는 상태 변수에 따라서 결정될 수 있다.
성격 변수는 통신 단말에 입력되는 스피치 정보에 대응하는 가상 캐릭터의 일반적 성향을 나타낼 때 이용될 수 있고, 통신 단말의 사용자와 다른 사람간의 통화를 통해 변경될 수 있다. 예를 들면, 성격 변수는 선호/민감 주제, 선호/민감 키워드, 연민(sympathy), 액센트, 적응성(adaptability), 각성도(alterness), 호기심, 반항성, 설득력(eloquence), 관용구(idioms), 수다스러움(loquacity), 기질(peculiarities), 응답성(responsiveness), 감성(sentimentality), 수면 시간 중 적어도 하나를 포함할 수 있으며 이에 제한되지 않는다. 일 예로, 선호/민감 주제는 디바이스(100)가 주제에 대해서 가상 캐릭터가 능동적으로 참여할지 좀처럼 참여하지 않게 될지를 결정할 때 이용될 수 있다. 다른 예로, 선호/민감 키워드는 가상 캐릭터가 대상이 되는 주제에 대해서 (스포츠와 같이) 흥미로워하는지 또는 (테러와 같이) 흥미 없어하는지 나타낼 때 이용될 수 있다. 다른 예로, 연민은 사람, 객체 또는 대상에 대해서, 가상 캐릭터가 긍정적인 코멘트를 줄지 부정적인 코멘트를 줄지 나타낼 때 이용될 수 있다. 다른 예로, 액센트(accents)는 가상 캐릭터의 가능한 액센트 타입 및 정도를 나타내기 위해서 이용될 수 있다. 다른 예로, 적응성은 가상 캐릭터의 성격의 장기 변형(long term variation)의 정도를 나타낼 때 이용될 수 있다. 다른 예로, 각성도는 입력되는 스피치 정보에 대한 가상 캐릭터의 민감한 정도를 나타낼 때 이용될 수 있다. 다른 예로, 호기심은 가상 캐릭터가 질문하는 동작을 나타낼 때 이용될 수 있다. 다른 예로, 반항성은 가상 캐릭터가 명령을 수행하는 동작을 나타내기 위해 이용될 수 있다. 다른 예로, 설득력은 가상 캐릭터의 유창하고 꾸민 문장을 이용하는 경향을 나타내기 위해 이용될 수 있다. 다른 예로, 관용구는 가상 캐릭터가 자주 사용하는 어구나 문장을 나타내기 위해 사용될 수 있다. 다른 예로, 수다스러움은 가상 캐릭터가 많이 말하는 정도를 나타내기 위해 사용될 수 있다. 다른 예로, 기질은 특정 주제에 대한 가상 캐릭터의 특별한 리액션 모드를 나타내기 위해 이용될 수 있다. 다른 예로, 응답성은 가상 캐릭터의 요청이나 문의의 적극성을 나타내기 위해 사용될 수 있다. 다른 예로, 감성은 가상 캐릭터가 강한 기분을 발전시키는 경향을 나타내기 위해 이용될 수 있다. 다른 예로, 수면 시간은 낮 시간에 가상 캐릭터가 낮은 응답성을 갖게되는 성향을 나타내기 위해 이용될 수 있다.
일 실시 예에 따른 상태 변수는 가상 캐릭터의 행동 특성을 결정하기 위해 이용될 수 있다. 상태 변수는 이전 상태 변수, 통신 단말을 통해 입력되는 스피치 정보, 성격 변수 등에 따라 결정될 수 있다. 예를 들면, 적극성은 가상 캐릭터가 얼마나 적극적으로 이슈에 대해 말하는지를 나타낼 수 있다. 높은 적극성은 자주, 길게 빠르게 자발적으로 말하는 것을 나타낼 수 있다. 다른 예로, 감정 상태는 가상 캐릭터가 스피치를 통해서 나타내는 감정의 타입(기쁨 및 우울을 포함함) 및 강도를 나타낼 수 있다. 다른 예로, 스피치 방식은 가상 캐릭터의 현재 스피치의 방식을 나타낸다. 스피치 방식은 특정 타입의 방언에 적응 정도 및 빈도, 형식(formality) 및 친숙함(familiarity)의 정도 및 특정 목소리의 요청을 포함할 수 있다. 다른 예로, 즉흥성은 가상 캐릭터가 대화를 얼마나 적극적으로 시작하는지 나타낼 수 있다.
단계 S230에서 일 실시 예에 따른 디바이스(100)는 스피치 정보 및 상태 정보에 기초하여 적어도 하나의 참여자에게 제공될 가상 스피치를 획득 또는 결정한다. 예를 들면 일 실시 예에 따른 디바이스(100)는 복수개의 가상 스피치 중 하나를 적어도 하나의 참여자에게 제공될 가상 스피치로 결정할 수도 있고, 적어도 하나의 참여자에게 제공될 가상 스피치를 생성할 수도 있다.
일 실시 예에 따른 디바이스(100)는 단계 S220에서 획득한 상태 정보를 이용하여 단계 S210에서 획득한 스피치 정보에 대응하는 표현 속성(expression attribute)을 가진 가상 스피치를 생성할 수 있다. 가상 스피치의 표현 속성 또는 스피치 정보의 표현 속성은 스피치의 표현 스타일 및 감정과 같은 표현 관련 정보를 나타내기 위해 사용될 수 있고, 감정 상태 및/또는 표현 모드를 나타내기 위해 사용될 수 있는 정보를 포함할 수 있다.
일 실시 예에 따른 표현 속성에 포함되는 감정 상태는 기쁨(elation), 화(anger), 슬픔(sorrow), 우울(depression) 및 온화(mildness)와 같은 타입을 포함할 수 있으며 이에 제한되지 않는다. 감정 상태의 각 타입은 서로 다른 레벨로 정의될 수 있다. 예를 들면, 기쁨(elation)의 감정 상태는 낮음, 중간 또는 높음 등과 같은 몇 레벨로 정의될 수 있다. 일 실시 예에 따른 표현 모드는 표현 스타일(phrasing style), 액센트 타입, 방언 빈도, 방언 정도, 방언 톤, 장면 모드(scene mode) 또는 배경 음악을 포함할 수 있으며 이에 제한되지 않는다.
일 실시 예에 따라, 가상 스피치의 컨텐츠는 상태 정보에 따라 결정될 수 있고, 스피치 정보의 컨텐츠 및/또는 표현 속성은 통신 단말로 입력될 수 있다. 예를 들면, 일 실시 예에 따른 디바이스(100)는 컨텐츠를 획득하기 위해서 오디오 처리 기술(예: 음성 인식 기술)로 통신 단말로 입력되는 오디오 정보를 분석하고, 분석에 따라 획득된 컨텐츠 및 상태 정보에 따라서 결정된 표현 속성을 갖는 가상 스피치를 생성할 수 있다. 다른 예로, 일 실시 예에 따른 디바이스(100)는 스피치 정보의 표현 속성을 획득하기 위해서 통신 단말로 입력되거나 통신 단말로부터 획득되는 스피치 정보를 분석할 수 있다. 그리고 나서 일 실시 예에 따른 디바이스(100)는 분석된 스피치 정보 및 상태 정보에 따라 결정된 표현 속성을 갖는 가상 스피치를 생성할 수 있다.
예를 들어, 통신 단말로 입력되는 스피치 정보가 풋볼이라는 주제를 포함하고, 풋볼이라는 주제가 가상 캐릭터의 선호 주제인 경우(일 실시 예에 따라, 선호 주제는 가상 캐릭터의 상태 정보에 포함되는 성격 변수에 따라 정의될 수 있음), 생성될 가상 스피치의 컨텐츠는 풋볼의 주제와 관련된 것으로 결정될 수 있고, 생성될 가상 스피치의 표현 속성의 감정 상태의 타입은 기쁨으로 결정될 수 있다.
다른 예로, 통신 단말로 입력되는 스피치 정보의 표현 속성이 “슬픔” 타입의 감정 상태에 포함되는 것으로 분석되는 경우, 가상 스피치의 컨텐츠는 “위로”의 주제에 관련되도록 생성될 수 있다. 이 경우, 생성될 가상 스피치의 표현 속성의 감정 상태의 타입은 “온순함”으로 결정될 수 있다.
일 실시 예에 따라, 통신 단말에 입력되는 스피치 정보의 컨텐츠가 기설정된 타입의 키워드를 포함하는 경우, 가상 스피치의 컨텐츠는 기설정된 타입에 대응하는 즉각적인 정보를 포함할 수 있다. 예를 들면, 만약 통신의 컨텐츠가 주소 타입의 키워드를 포함하면, 가상 스피치의 컨텐츠는 신속한 주소 갱신이나 미팅 장소 주소와 같은 주소 타입에 관련된 신속한 정보를 포함할 수 있다.
일 실시 예에 따라, 가상 스피치의 컨텐츠는 통신 단말로 입력되는 스피치 정보의 표현 속성(감정 상태와 같은)에 의해 결정될 수 있다. 통신 단말 또는 디바이스(100)에서 로컬 사용자(local user) 및 원거리 사용자(remote user)에 대한 감정 상태가 분석 및 획득될 수 있고, 감정 상태에 따라서 가상 스피치의 컨텐츠는 조절될 수 있다. 예를 들면, 스피치 정보의 감정 상태가 비정상인 경우, 가상 스피치의 컨텐츠는 현재 주제와 상이한 주제 정보 또는 기설정된 즉각적인 정보를 포함할 수 있다. 비정상적인 감정 상태는 비정상적인 감정 상태 타입 및/또는 비정상적인 감정 상태 지속 기간에 따라 결정될 수 있다. 감정적인 상태 타입은 기쁨, 흥분, 즐거움 등과 같은 긍정적인 타입, 슬픔, 우울, 화, 테러 등의 부정적인 타입 및 온화 등과 같은 중립적인 타입을 포함할 수 있다. 예를 들면, 부정적인 타입의 감정 상태는 비정상적인 감정 상태로 결정될 수 있다. 다른 예로, 슬픔 우울 등의 부정적인 타입의 감정 상태가 기설정된 기간 (1분 등과 같이) 이상 지속되는 경우, 감정 상태가 비정상적이라고 결정될 수 있다. 다른 예로, 흥미, 흥분과 같은 긍정적인 타입의 감정 상태가 기설정된 기간 (10분 과 같이) 이상 지속된 경우, 감정적인 상태는 비정상적이라고 결정될 수 있다.
일 실시 예에 따라, 통신 단말로 입력된 스피치 정보에 언급된 사람이 현재 통화의 참여자(예: 통화에 참여하고 있는 로컬 사용자 또는 원거리 사용자)인 경우 또는 주제가 기설정된 주제를 포함하는 경우, 가상 스피치의 컨텐츠는 스피치 정보의 감정 상태에 따라 생성되는 즉각적인 정보 또는 현재 주제와 다른 주제 정보를 포함할 수 있다. 일 실시 예에 따라, 기설정된 주제는 참여자의 감정 상태를 변화시키는 주제일 수도 있고, 참여자에게 반감을 주는 주제일 수도 있다. 주제는 참여자와 관련된 정보의 기록에 이용되는 데이터 베이스에 저장될 수 있다. 예를 들면, 로컬 사용자에 의해 통신 단말로 입력되는 스피치 정보가 현재 통신의 원거리 사용자와 관련 있고, 스피치 정보의 감정 상태의 타입은 분노(anger)인 경우, 가상 스피치의 컨텐츠는 로컬 사용자의 감정을 제어하기 위해 로컬 사용자를 설득하는 즉각적인 정보를 포함할 수 있다. 예를 들면, 로컬 사용자의 스피치 정보의 주제가 원거리 사용자의 반감을 유발하는 주제(예: 원거리 사용자의 나이)를 포함하는 경우, 가상 스피치의 컨텐츠는 날씨, 뉴스 등과 같이 언급된 주제와는 상이한 주제를 포함할 수 있다.
일 실시 예에 따른 표현 속성은 가상 스피치의 이전 표현 속성을 조절하여 획득 또는 생성될 수 있다. 가상 스피치의 표현 속성은 감정 상태 및/또는 감정 모드를 포함하기 때문에, 이전 감정 속성을 조절하는 것은 감정 상태를 조절하는 것 및/또는 표현 모드를 조절하는 것을 포함할 수 있다.
일 실시 예에 따라 감정 상태를 조절하는 것은 감정 상태를 억제하는 것 및/또는 감정 상태를 향상 시키는 것을 포함할 수 있다. 감정 상태의 억제는 기쁜 감정 상태를 온화 또는 우울의 감정 상태로 조절하는 것과 같이, 긍정적인 타입의 감정 상태를 중립 타입 또는 부정 타입의 감정 상태로 조절하는 것, 및/또는 중립적인 타입의 감정 상태를 부정적인 타입의 감정 상태로 조절하는 것을 포함할 수 있다. 일 실시 예에 따라 감정 상태의 억제는 감정 상태의 기쁨의 정도를 높음에서 낮음으로 하는 것과 같이, 감정 상태를 높음에서 낮음으로 조절하는 것을 포함할 수 있다. 일 실시 예에 따라 감정 상태의 향상은 감정 상태를 온화 또는 우울에서 기쁨으로 조절하는 것과 같이, 부정적인 타입의 감정 상태를 중립 또는 긍정 타입의 감정 상태로 조절하는 것, 또는 중립 타입의 감정 상태를 긍정 상태의 감정 상태로 조절하는 것을 포함할 수 있다. 일 실시 예에 따라 감정 상태를 향상시키는 것은 기쁨의 감정 상태의 정도를 낮음에서 높음으로 조절하는 것과 같이, 감정 상태를 낮은 상태에서 높은 상태로 조절하는 것을 포함할 수 있다.
일 실시 예에 따라, 가상 스피치의 표현 속성은 통신 단말로 입력되는 스피치 정보의 컨텐츠에 따라서 조절될 수 있다. 예를 들면, 스피치 정보의 컨텐츠가 가상 캐릭터의 상태 정보에 기설정되어 있는 흥미로운 키워드를 포함하고 있는 경우, 가상 스피치의 감정 상태는 향상될 수 있다. 다른 예로, 스피치 정보의 컨텐츠가 상태 정보에 기설정되어 있는 반감적인 키워드를 포함하는 경우, 가상 스피치의 이전 감정 상태는 억제될 수 있다. 예를 들면, 통신 단말에 입력되는 스피치 정보의 컨텐츠가 긍정적인 문장을 포함하는 경우, 이전 가상 스피치의 감정 상태는 향상될 수 있다. 여기서, 긍정적인 문장은 인사하거나 인사에 대답하기 위해 사용될 수 있는 문장일 수 있다. 통신 단말로 입력되는 스피치 정보의 컨텐츠가 가상 캐릭터인 민수에게 인사하는 것을 포함하는 경우 가상의 가상 스피치의 감정 상태는 향상될 수 있다. 다른 예로, 스피치 정보의 컨텐츠가 명령문을 포함하는 경우, 이전 가상 스피치의 감정 상태는 억제될 수 있다. 명령문은 요청이나 명령하기 위해 이용되는 문장일 수 있다. 통신 단말로 입력되는 스피치의 컨텐츠가 “목소리를 낮춰요 민수”와 같이 명령문 구조를 포함하는 경우, 가상 캐릭터 민수의 가상 스피치의 감정 상태는 억제될 수 있다.
일 실시 예에 따라, 가상 스피치의 표현 속성에 포함된 감정 상태는 단계 S220에서 획득된 상태 정보에 의해 결정될 수 있다. 예를 들면, 상태 정보가 스피치 정보를 입력한 사람을 향한 연민을 포함하는 경우, 감정 상태는 조절될 수 있다. 일 예로, 상태 정보가 스피치 정보를 입력한 사람을 향한 연민을 포함하는 경우, 상태 정보의 설정에 따라, 감정 상태가 향상될 수 있다. 다른 예로, 상태 정보가 스피치 정보를 입력한 사람을 향한 연민을 포함하지 않거나, 상태 정보가 스피치 정보를 입력한 사람의 상대방을 향한 연민을 포함하 는 경우, 상태 정보의 설정에 따라, 감정 상태가 억제될 수 있다.
통신 단말에 입력되는 스피치 정보의 컨텐츠가 기설정된 흥미로운 주제를 포함하는 경우, 일 실시 예에 따른 디바이스(100)는 감정 상태를 향상시킬 수 있다. 통신 단말에 입력되는 스피치 정보의 컨텐츠가 기설정된 반감을 일으키는 주제를 포함하는 경우, 일 실시 예에 따른 디바이스(100)는 감정 상태를 억제할 수 있다.
흥미로운 주제 및 반감을 일으키는 주제는 각각 가상 캐릭터의 상태 정보를 결정하는 성격 변수에 의해 결정될 수 있다. 예를 들면, 성격 변수는 선호/민감 주제인지 여부를 결정하는 변수를 포함할 수 있다. 예를 들면, 성격 변수에 포함되는 선호도 변수는 기설정된 흥미로운 주제에 대한 키워드가 스피치 정보에서 획득되면 증가하고, 기설정된 반감을 일으키는 주제에 대한 키워드가 스피치 정보에서 획득되면 감소할 수 있다. 예를 들면, 성격 변수에 포함되는 선호도 변수는 예술(기설정된 흥미로운 주제)에 대한 키워드가 스피치 정보에서 획득되면 증가하고, 테러(기설정된 반감을 일으키는 주제)에 대한 키워드가 스피치 정보에서 획득되면 감소할 수 있다.
일 실시 예에 따라, 통신 단말에 입력되는 스피치 정보에 언급된 사람이 현재 통화의 참여자 중 한명인 경우, 일 실시 예에 따른 디바이스(100)는 가상 캐릭터의 감정 상태를 향상시킬 수 있다.
일 실시 예에 따른 디바이스(100)는 통신 단말에 입력되는 스피치 정보로부터 획득한 감정 상태를 이용하여 상태 정보를 결정할 수 있다. 일 실시 예에 따른 디바이스(100)는 상태 정보를 이용하여 가상 캐릭터의 감정 상태를 결정할 수 있다. 예를 들면, 통신 단말에 입력되는 스피치 정보로부터 획득한 감정 상태가 비정상이거나, 비정상적인 감정 상태가 소정 기간 이상 지속된 경우, 일 실시 예에 따른 디바이스(100)는 현재 상태 정보를 갱신할 수 있다. 스피치 정보로부터 획득한 감정상태가 비정상적이라는 것은 통화 참여자 중 어느 한 참여자의 감정상태가 비정상적이라고 결정된 경우를 의미할 수도 있고, 통화 참여자 중 2인 이상의 감정상태가 비정상적이라고 결정된 경우를 의미할 수도 있다.
일 실시 예에 따른 디바이스(100)는 통화에 참여하는 참여자의 감정 상태를 참여자에 의해 통신 단말에 입력되는 스피치 정보를 통해 결정할 수 있다. 예를 들어, 통화에 참여하는 한 참여자의 스피치 정보로부터 획득한 감정 상태가 부정적 타입(예: 분노 타입)인 경우, 해당 참여자의 감정 상태는 비정상으로 나타내어질 수 있다. 다른 예로, 통화에 참여하는 두 참여자로부터 획득한 감정 상태가 모두 부정적 타입(예: 한 사람은 분노 타입이고 다른 한 사람은 우울 타입)인 경우, 해당 두 참여자의 감정 상태는 쌍방 비정상으로 나타내어질 수 있다. 다른 예로, 통화에 참여하는 두 참여자로부터 획득한 감정 상태가 각각 긍정 타입 및 부정 타입인 경우 (예: 한 사람은 분노 타입이고 다른 한 사람은 기쁨 타입)인 경우, 해당 두 참여자의 감정 상태는 일방 비정상 또는 상호 비정상으로 나타내어질 수 있다.
일 실시 예에 따른 디바이스(100)는 감정 상태가 정상인지 여부를 감정 타입 뿐만 아니라 소정 감정의 지속 시간을 이용하여 결정할 수 있다. 예를 들면, 감정 타입의 종류와 감정 타입의 강도 및 감정 타입의 지속 시간을 모두 고려하여 해당 참여자의 감정 상태가 정상인지 여부를 결정할 수 있다.
일 실시 예에 따른 디바이스(100)는 통화 참여자의 한명 이상의 감정 상태가 비정상이라고 판단된 경우, 해당 참여자의 감정상태를 정상적인 상태로 전환하기 위해 필요한 컨텐츠 및 표현 속성에 따라 결정된 가상 스피치를 획득하여 출력할 수 있다. 또한, 디바이스(100)가 제공하는 가상 스피치에 따라서 통화 참여자의 감정 상태가 변경되는지 여부를, 일 실시 예에 따른 디바이스(100)는 결정할 수 있다.
일 실시 예에 따른 디바이스(100)가 획득하여 출력하는 가상 스피치는 가상 스피치의 컨텐츠 및 가상 스피치의 표현 속성에 따라 결정될 수 있다. 표현 속성은 가상 스피치의 표현 방식에 대한 정보를 포함할 수 있다.
일 실시 예에 따른 표현 속성은 통신 단말에 입력되는 스피치 정보로부터 획득되는 표현 속성에 따라 결정될 수 있다. 예를 들면, 통신 단말로 입력되는 스피치 정보로부터 획득되는 표현 속성의 분석 결과, A지방 사투리에 대한 속성에 대한 빈도와 정도가 높은 경우, 디바이스(100)가 제공하는 가상 스피치의 표현 속성도 A지방 사투리의 표현 속성을 포함할 수 있다.
일 실시 예에 따른 디바이스(100)는 기설정된 복수개의 표현 속성 중 하나를 결정함으로써, 디바이스가 제공하는 가상 스피치의 표현 속성을 결정할 수 있다. 예를 들면, 기설정된 가족 모드가 선택되는 경우, 일 실시 예에 따른 디바이스(100)는 가족들간이 사용하는 사투리 및 언어 습관에 따른 표현 속성에 따라 가상 스피치를 획득할 수 있다. 다른 예로, 기설정된 복수개의 표현 모드는 가족 모드 외에도 업무 모드, 휴식 모드 등이 있을 수 있으며 이에 제한되지 않는다.
도 3은 일 실시 예에 따른 디바이스(100)가 가상 스피치를 획득하여 출력하는 방법의 흐름도이다.
단계 S330 및 단계 S340은 각각 도 2에서 상술된 단계 S220 및 단계 S230에 대응되므로 전체적인 설명을 간단히 하기 위해 상세한 설명을 생략한다.
단계 S310에서 일 실시 예에 따른 디바이스(100)는 적어도 하나의 참여자에 대한 정보를 획득하기 위해 문의하는 가상 스피치를 출력한다.
예를 들면, 일 실시 예에 따른 디바이스(100)는 제1 참여자와 제2 참여자간에 대화가 진행되는 동안 가상 스피치를 통해서 제1 참여자의 오늘의 스케줄을 문의하는 가상 스피치를 출력할 수 있다. 다른 예로, 제1 참여자와 제2 참여자간의 스포츠에 대한 대화가 진행되는 경우, 일 실시 예에 따른 디바이스(100)는 제1 참여자에게 스포츠가 제1 참여자가 흥미로워하는 주제인지 여부를 문의하는 컨텐츠를 포함하는 가상 스피치를 출력할 수 있다.
단계 S320에서 일 실시 예에 따른 디바이스(100)는 문의하는 가상 스피치를 통해 획득된 추가 스피치 정보를 포함하는 스피치 정보를 획득한다.
일 실시 예에 따른 디바이스(100)는 단계 S310에서 출력한 가상 스피치에 대응하여 참여자가 제공하는 스피치 정보를 획득할 수 있다. 일 실시 예에 따른 디바이스(100)는 단계 S310에서 출력한 가상 스피치에 대응하여 참여자가 제공하는 스피치 정보인 추가 스피치 정보를 획득할 수 있다. 또한 일 실시 예에 따른 디바이스(100)는 추가 스피치 정보를 포함하는 스피치 정보를 통신 단말을 통해 획득하고, 스피치 정보에 포함되는 추가 스피치 정보를 분석하여 추가 정보를 획득할 수 있다. 추가 정보는 참여자에 대한 정보를 포함할 수 있으나 이에 한정되지 않는다.
단계 S350에서 일 실시 예에 따른 디바이스(100)는 단계 S340에서 획득한 가상 스피치를 출력한다.
예를 들면, 일 실시 예에 따른 디바이스(100)는 단계 S340에서 획득한 가상 스피치를 음성 형태로 출력할 수 있다. 다른 예로, 일 실시 예에 따른 디바이스(100)는 단계 S340에서 획득한 가상 스피치를 문자 형태로 출력할 수 있다.
일 실시 예에 따른 디바이스(100)는 단계 S340에서 획득한 가상 스피치를 통화중인 두 참여자 중 어느 한 참여자에게만 제공할 수 있다. 또는 일 실시 예에 따른 디바이스(100)는 단계 S340에서 획득한 가상 스피치를 통화중인 두 참여자 모두에게 제공할 수 있다. 일 실시 예에 따른 디바이스(100)는 스피커 등을 통하여 단수 또는 복수의 참여자에게 단계 S340에서 획득한 가상 스피치를 출력할 수 있다.
일 실시 예에 따른 디바이스(100)는 S330에서 획득된 상태 정보에 따른 표현 방식의 가상 스피치를 생성한 후, 통신 단말을 통해 생성된 가상 스피치를 출력할 수 있다. 예를 들면 가상 스피치는 로컬 통신 단말의 스피커를 통해 직접 출력될 수 있다. 가상 스피치는 부호화 과정이 수행된 후 전화 네트워크를 통해 원거리 통신 단말로 전송될 수 있고, 원거리 통신 단말의 스피커를 통해 원거리 통신 단말에 의해 출력될 수 있다.
일 실시 예에 따른 디바이스(100)는 ⅰ) 통신 단말을 통해 입력되는 스피치 정보의 컨텐츠가 가상 캐릭터에 대한 기설정된 민감 키워드를 포함하는 경우, 스피치 정보를 출력하는 것을 지연하거나 ⅱ)출력 명령이 수신된 경우, 스피치 정보를 출력할 수 있다. 출력 명령은 통신 단말이 송신하거나 기설정된 시간 간격 후에 통신 단말에 의해 자동적으로 송신될 수 있다. 예를 들면 통신 중에, 로컬 통신 단말로 입력되는 스피치 정보가 언쟁을 유발하는 기설정된 민감 키워드(반대와 같이)를 포함하는 경우, 로컬 통신 단말의 가상 캐릭터는 스피치 정보를 원거리 통신 단말에 전송하는 것을 지연하고, 주제를 바꾸거나 감정을 조절하기 위한 제안을 포함하는 가상 스피치를 로컬 사용자에게 제공할 수 있다. 일 실시 예에 따른 디바이스(100)는 스피치 정보의 전송이 지연되는 동안 사적 모드(private mode)로 가상 스피치를 이용하여 로컬 사용자나 원거리 사용자와 통신할 수 있다.
도 4는 일 실시 예에 따른 디바이스(100)가 스피치 정보 및 상태 정보를 이용하여 가상 스피치를 획득하는 방법의 흐름도이다.
단계 S410에서 일 실시 예에 따른 디바이스(100)는 스피치 정보를 이용하여 가상 스피치의 컨텐츠를 획득한다.
일 실시 예에 따른 디바이스(100)는 통신 단말로부터 획득되는 스피치 정보를 분석하여 주제를 결정하고, 결정된 주제 및 상황에 대응되는 컨텐츠를 획득할 수 있다. 예를 들면, 축구에 대한 주제로 두 참여자가 통화하고 있는 경우, 일 실시 예에 따른 디바이스(100)는 최근 축구 기사에 대한 내용을 가상 스피치의 컨텐츠로 결정할 수 있다.
단계 S420에서 일 실시 예에 따른 디바이스(100)는 상태 정보를 이용하여 가상 스피치의 표현 방식을 결정한다.
일 실시 예에 따른 표현 방식은 목소리 톤이나 말의 빠르기 등과 같이 가상 스피치가 음성으로 표현될 때 표현되는 방식을 의미할 수 있다. 일 실시 예에 따른 표현 방식은 표현 방식은 표현 속성에 따라 결정될 수 있다.
표현 속성은 표현 스타일, 가상 캐릭터의 감정 상태, 표현 모드 등을 포함하며, 상태 정보에 따라 결정될 수 있다. 예를 들면 일 실시 예에 따른 디바이스(100)는 상태 정보에 대응하는 표현 속성을 결정하고, 결정된 표현 속성에 따라 가상 스피치의 표현 방식을 결정할 수 있다.
일 예로, 일 실시 예에 따른 디바이스(100)는 상태 정보에 따라 통화에 참여하는 참여자들간의 감정상태가 지나치게 격앙된 경우, 부드럽고 느린 어조를 통해 컨텐츠를 표현하도록 가상 스피치의 표현 방식을 결정할 수 있다.
단계 S430에서 일 실시 예에 따른 디바이스(100)는 단계 S410에서 획득한 컨텐츠가 단계 S420에서 결정된 표현 방식으로 표현되는 가상 스피치를 획득한다.
예를 들면, 일 실시 예에 따른 디바이스(100)는 단계 S410에서 결정된 축구 기사에 대한 내용을 단계 S420에서 결정된 표현 방식에 따라 표현하는 가상 스피치를 획득할 수 있다.
도 5는 일 실시 예에 따른 디바이스(100)가 스피치 정보에 기설정된 키워드가 포함되는지 여부에 따라서 가상 스피치를 획득하는 방법의 흐름도이다.
단계 S510에서 일 실시 예에 따른 디바이스(100)는 스피치 정보가 기설정된 키워드를 포함하는지 여부를 결정한다.
예를 들면, 일 실시 예에 따른 디바이스(100)는 통신 단말을 통해 획득되는 스피치 정보가 통화 참여자의 기피 주제에 대한 키워드를 포함하는지 여부를 결정할 수 있다. 다른 예로, 일 실시 예에 따른 디바이스(100)는 통신 단말을 통해 획득되는 스피치 정보가 통화 참여자의 선호 주제에 대한 키워드를 포함하는지 여부를 결정할 수 있다.
단계 S520에서 일 실시 예에 따른 디바이스(100)는 스피치 정보가 기설정된 키워드를 포함하는 경우, 대화의 주제와 상이한 주제에 대한 컨텐츠를 포함하는 가상스피치를 획득한다.
예를 들면, 일 실시 예에 따른 디바이스(100)가 통신 단말을 통해 획득한 스피치 정보에 통화 참여자의 기피 주제에 대한 키워드가 포함된 경우, 현재 주제와 상관 없는 주제에 대한 컨텐츠를 포함하는 가상 스피치를 획득하고 출력할 수 있다.
도 6은 일 실시 예에 따른 디바이스(100)가 감정 정보에 기초하여 가상 스피치를 획득하는 방법의 흐름도이다.
단계 S610에서 일 실시 예에 따른 디바이스(100)는 적어도 하나의 참여자의 감정 상태가 비정상적인지 여부를 감정 정보를 이용하여 결정한다.
일 실시 예에 따른 상태 정보는 감정 정보를 포함할 수 있다. 일 실시 예에 따른 감정 정보는 감정의 종류에 대한 정보 및 감정의 레벨에 대한 정보를 포함할 수 있다. 감정의 종류는 감정 상태는 기쁨(elation), 화(anger), 슬픔(sorrow), 우울(depression) 및 온화(mildness) 등을 포함할 수 있으며 이에 제한되지 않는다.
예를 들면, 감정 정보는 참여자의 감정 상태가 화난 상태 및 화난 정도에 대한 정보를 포함할 수 있다. 일 실시 예에 따른 디바이스(100)는 통신 단말을 통해 획득되는 스피치 정보를 통해 감정 정보를 획득될 수 있다. 일 실시 예에 따른 디바이스(100)는 통신 단말을 통해 획득되는 스피치 정보를 통해 복수개의 감정 상태 중 하나의 감정 상태가 어느 정도 레벨인지 결정할 수 있다.
단계 S620에서 일 실시 예에 따른 디바이스(100)는 감정 상태가 비정상적이라고 결정된 경우, 대화의 주제와 상이한 주제에 대한 컨텐츠를 포함하는 가상 스피치를 획득한다.
예를 들면, 일 실시 예에 따른 디바이스(100)는 참여자가 소정 기간 이상 동안 소정의 감정 상태를 유지하고 있음을 확인한 경우, 감정 상태가 비정상적이라고 결정할 수 있다. 또한, 일 실시 예에 따른 디바이스(100)는 통화 중인 참여자의 감정 상태가 비정상적이라고 결정한 경우, 현재 대화 주제와 상이한 주제에 대한 컨텐츠를 포함하는 가상 스피치를 획득할 수 있다. 예를 들면, 일 실시 예에 따른 디바이스(100)는 참여자의 화난 감정 상태가 1분 이상 유지됨을 확인한 경우, 현재 대화 주제와 상이한 스포츠에 대한 가상 스피치를 획득하여 출력할 수 있다.
도 7은 일 실시 예에 따른 디바이스(100)가 스피치 정보에 포함된 키워드를 이용하여 가상 스피치를 획득하는 일례를 도시한 도면이다.
일 실시 예에 따라, 통신 단말로 입력되는 스피치 정보의 컨텐츠가 가상 캐릭터의 상태 정보 내의 기설정된 민감 키워드(sensitive keyword)를 포함하는 경우, 가상 스피치의 컨텐츠는 현재 주제와는 상이한 즉각적인 정보(prompt information) 또는 주제 정보(topic information)를 포함할 수 있다. 일 실시 예에 따른 기설정된 민감 키워드는 상태 정보의 성격 변수의 민감 키워드 필드에 저장될 수 있다. 일 실시 예에 따른 통화의 컨텐츠가 기설정된 민감 키워드와 관련된 경우, 통화는 부정적인 영향을 받을 수 있다. 예를 들면, 스피치 정보의 컨텐츠가 테러라는 키워드를 포함하는 경우, 그리고 테러라는 키워드는 가상 캐릭터의 상태 정보의 민감 키워드 중 하나인 경우, 생성될 가상 스피치의 컨텐츠는 “주제를 바꿔주세요”라는 효과를 주기 위한 기설정된 즉각적인 정보를 포함하거나, 직접적으로 “스포츠” 주제와 같이 현재 주제와 상이한 주제 정보를 포함할 수 있다.
예를 들면 제1 통신 단말(110)로부터 제2 통신 단말(120)로 전송된 스피치 정보에 “테러상황이 말야”(710)라는 컨텐츠가 포함된 경우, 일 실시 예에 따른 디바이스(100)는 “주제를 바꿔주세요”(720)라는 컨텐츠를 포함하는 가상 스피치를 제1 통신 단말(110) 및/또는 제2 통신 단말(120)에 출력할 수 있다.
다른 예로 제1 통신 단말(110)로부터 제2 통신 단말(120)로 전송된 스피치 정보에 “테러상황이 말야”(710)라는 컨텐츠가 포함된 경우, 일 실시 예에 따른 디바이스(100)는 “어제 스포츠 뉴스 보셨나요?”(730)라는 컨텐츠를 포함하는 가상 스피치를 제1 통신 단말(110) 및/또는 제2 통신 단말(120)에 출력할 수 있다.
도 8은 일 실시 예에 따른 디바이스(100)가 스피치 정보에 포함된 키워드를 이용하여 가상 스피치를 획득하는 일례를 도시한 도면이다.
일 실시 예에 따라, 기설정된 타입은 숫자 타입(numeric type) 및/또는 시간 타입(temporal type)을 포함할 수 있다. 통신 단말에 입력되는 스피치 정보의 컨텐츠가 숫자 타입의 키워드를 포함하는 경우, 가상 스피치의 컨텐츠는 연락처 목록 갱신 및 숫자 변환과 관련된 즉각적인 정보를 포함할 수 있다. 그리고 스피치 정보의 컨텐츠가 시간 타입의 키워드를 포함하는 경우, 가상 스피치의 컨텐츠는 스케줄 중복(conflict), 시간 리마인더, 리마인더와 시간 차이 또는 여행 리마인더와 관련된 즉각적인 정보를 포함할 수 있다. 예를 들면, 스피치 정보의 컨텐츠가 “7:00 am 내일”이라는 키워드를 포함하는 경우, 통신 단말은 사용자의 내일 오전 7:00의 스케줄 정보를 탐색할 수 있다. 중복이 탐지되면, 생성된 가상 스피치의 컨텐츠는 중복(conflict)된다는 즉각적인 정보를 포함할 수 있다.
예를 들면 제1 통신 단말(110)로부터 제2 통신 단말(120)로 전송된 스피치 정보에 “내일 오전 7시에 카페에서 볼까?”(830)라는 컨텐츠가 포함된 경우, 일 실시 예에 따른 디바이스(100)는 제1 통신 단말의 사용자에 대한 스케줄을 분석하고, 분석 결과에 따라 “내일 오전 7시에 회의 스케줄이 이미 있어요.”(820)라는 컨텐츠를 포함하는 가상 스피치를 제1 통신 단말 제어부(810)에 전송할 수 있다.
일 실시 예에 따른 디바이스(100)는 제1 통신 단말(110) 내에 위치할 수도 있고, 제2 통신 단말(120) 내에 위치할 수도 있고, 제1 통신 단말(110) 및 제2 통신 단말(120)의 외부에 위치할 수도 있다.
도 9는 일 실시 예에 따라 정보를 제공하는 디바이스(100)의 구성을 나타내는 블록도이다.
도 9를 참조하면, 일 실시 예에 따른 디바이스(100)는 수신부(910), 제어부(920) 및 출력부(930) 를 포함한다. 도 9에 도시된 디바이스(100)에는 본 실시 예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 9에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
일 실시 예에 따른 수신부(910)는 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 통신 단말을 통해 획득한다.
일 실시 예에 따른 스피치 정보는 음성 신호를 통해 획득되는 정보를 포함할 수 있다. 예를 들면, 스피치 정보는 통신 단말을 통해 수신되는 통신 단말 사용자의 음성 신호로부터 획득되는 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말 사용자의 음성 신호의 분석을 통해 획득되는 키워드 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말 사용자의 음성 신호의 분석을 통해 획득되는 목소리 정보를 포함할 수 있다.
일 실시 예에 따른 수신부(910)는 하나 이상의 통신 단말로부터 스피치 정보를 획득할 수 있다. 예를 들면, 수신부(910)는 제1 통신 단말 및/또는 제2 통신 단말로부터 스피치 정보를 획득할 수 있다.
일 실시 예에 따른 통신 단말은 마이크와 스피커를 포함할 수 있다. 또한, 일 실시 예에 따른 통신 단말은 스마트폰, 태플릿 컴퓨터, 개인 디지털 기기, 랩탑 컴퓨터, 데스크탑 컴퓨터 등을 포함할 수 있으며, 이에 제한되지 않는다.
일 실시 예에 따른 제어부(920)는 통신 단말을 통해 획득된 음성 신호를 분석하여 스피치 정보를 획득할 수 있다. 일 실시 예에 따른 제어부(920)는 수신부(910)를 포함할 수 있다. 예를 들면, 제어부는 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 획득할 수 있다.
또는 일 실시 예에 따른 통신 단말이 음성 신호를 획득하고, 획득한 음성 신호를 분석한 결과를 디바이스(100)에 전송할 수 있다. 제어부(920)는 통신 단말로부터 수신한 음성 신호 분석 결과를 이용하여 스피치 정보를 획득할 수 있다.
통신 단말 또는 제어부(920)는 음성 신호를 수신할 수 있다. 예를 들면, 사용자의 음성 신호를 통신 단말의 마이크를 통해 수신할 수 있다. 예를 들면, 제1 통신 단말의 사용자의 음성 신호를 제1 통신 단말의 마이크를 통해 수신한 경우, 수신부(910)는 제1 통신 단말을 통해 제1 통신 단말 사용자의 음성 신호를 획득할 수 있다. 다른 예로, 제2 통신 단말의 사용자의 음성 신호를 제2 통신 단말의 마이크를 통해 수신한 경우, 수신부(910)는 제2 통신 단말을 통해 제2 통신 단말 사용자의 음성 신호를 획득할 수 있다. 다른 예로, 로컬 통신 단말의 사용자의 음성 신호를 로컬 통신 단말의 마이크를 통해 수신한 경우, 디바이스(100)는 로컬 통신 단말을 통해 로컬 통신 단말 사용자의 음성 신호를 획득할 수 있다. 다른 예로, 원거리 통신 단말의 사용자의 음성 신호를 원거리 통신 단말의 마이크를 통해 수신한 경우, 수신부(910)는 원거리 통신 단말을 통해 원거리 통신 단말 사용자의 음성 신호를 획득할 수 있다. 수신부(910)는 로컬 통신 단말 내에 위치할 수도 있고 원거리 통신 단말 내에 위치할 수도 있으며, 로컬 통신 단말 및 원거리 통신 단말의 외부에 위치할 수도 있다.
일 실시 예에 따른 제어부(920)는 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득한다.
일 실시 예에 따른 상태 정보는 적어도 하나의 참여자의 현재 감정 상태를 나타내는 감정 정보(emotion information), 적어도 하나의 참여자의 인적 정보(personal information), 대화에 대한 주제 정보(topic information), 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 적어도 하나의 참여자의 성격 정보(personality information) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 감정 정보는 감정의 종류에 대한 정보 및 감정의 레벨에 대한 정보를 포함할 수 있다. 감정의 종류는 감정 상태는 기쁨(elation), 화(anger), 슬픔(sorrow), 우울(depression) 및 온화(mildness) 등을 포함할 수 있으며 이에 제한되지 않는다.
일 실시 예에 따른 제어부(920)는 스피치 정보를 이용하여 상태 정보를 획득할 수 있다.
예를 들면, 제1 통신 단말이 “오늘 감기 기운이 있네.”라는 음성 신호를 획득한 경우, 제1 통신 단말이 획득한 음성 신호로부터 획득한 스피치 정보를 통해 제어부(920)는 제1 통신 단말의 사용자의 현재 건강 상태에 대한 정보를 획득할 수 있다. 다른 예로, 원거리 통신 단말이 “어제 친구와 싸웠어.”라는 음성 신호를 획득한 경우, 제어부(920)는 원거리 통신 단말이 획득한 음성 신호를 무선 연결을 통해 수신하고, 현재 원거리 통신 단말의 사용자의 감정 상태가 불편할 수 있다는 상태 정보를 획득할 수 있다.
일 실시 예에 따른 제어부(920)는 기저장된 데이터를 이용하여 상태 정보를 획득할 수 있다.
예를 들면, 기저장된 사용자의 생년월일 정보를 통해 사용자의 나이 정보를 획득할 수 있다. 기저장된 데이터는 제어부(920)에 저장되어 있을 수도 있고, 통신 단말에 저장되어 있을 수도 있고, 서버에 저장되어 있을 수도 있다.
일 실시 예에 따른 제어부(920)는 수신부(910)에서 획득한 스피치 정보 및 기저장된 데이터를 이용하여 상태 정보를 획득할 수 있다.
예를 들면, A 사용자와 B 사용자에 대한 데이터가 기저장되어 있고, A 사용자가 B 사용자를 아버지라고 부르는 경우, A 사용자와, B 사용자와의 관계가 부자관계라는 사용자들 간의 관계에 대한 상태 정보를 제어부(920)는 획득할 수 있다.
일 실시 예에 따른 획득된 상태 정보는 통신 단말의 메모리, 제어부(920)의 메모리 또는 서버(미도시) 등에 저장될 수 있다. 예를 들면, 상태 정보는 로컬 통신 단말 및/또는 원거리 통신 단말에 저장될 수 있다. 다른 예로, 상태 정보는 제어부(920)의 내부 또는 외부 메모리, 또는 제어부(920)와 연결된 서버에 저장될 수 있다.
상태 정보가 서버에 저장되어 있는 경우, 통신 단말 또는 제어부(920)는 유/무선 연결을 통해 상태 정보를 서버로부터 획득할 수 있다.
일 실시 예에 따른 제어부(920)는 스피치 정보 및 상태 정보에 기초하여 적어도 하나의 참여자에게 제공될 가상 스피치를 획득 또는 결정 한다. 예를 들면 일 실시 예에 따른 디바이스(100)는 복수개의 가상 스피치 중 하나를 적어도 하나의 참여자에게 제공될 가상 스피치로 결정할 수도 있고, 적어도 하나의 참여자에게 제공될 가상 스피치를 생성할 수도 있다.
일 실시예에 따른 가상 스피치는 수신부(910)에서 획득한 스피치 정보 및 제어부(920)에서 획득한 상태 정보에 따라 결정될 수 있다.
일 실시 예에 따라 제어부(920)는 가상 캐릭터를 통해 가상 스피치를 제공할 수 있다. 일 실시 예에 따라 제어부(920)는 가상 캐릭터의 성별, 성격, 말투 등에 기초하여 가상 스피치를 결정할 수 있다.
일 실시 예에 따른 제어부(920)는 상태 정보에 따라 가상 캐릭터의 성격, 말투 등을 결정할 수 있고, 가상 캐릭터의 성격 등은 변경되는 상태 정보에 따라 변경될 수 있다.
일 실시 예에 따른 상태 정보는 성격 변수(personality variable) 및/또는 상태 변수(state variable)를 포함할 수 있다. 예를 들면, 일 실시 예에 따른 상태 정보는 성격 변수 및/또는 상태 변수에 따라서 결정될 수 있다.
성격 변수는 통신 단말에 입력되는 스피치 정보에 대응하는 가상 캐릭터의 일반적 성향을 나타낼 때 이용될 수 있고, 통신 단말의 사용자와 다른 사람간의 통화를 통해 변경될 수 있다. 예를 들면, 성격 변수는 선호/민감 주제, 선호/민감 키워드, 연민(sympathy), 액센트, 적응성(adaptability), 각성도(alterness), 호기심, 반항성, 설득력(eloquence), 관용구(idioms), 수다스러움(loquacity), 기질(peculiarities), 응답성(responsiveness), 감성(sentimentality), 수면 시간 중 적어도 하나를 포함할 수 있으며 이에 제한되지 않는다. 일예로, 선호/민감 주제는 주제에 대해서 가상 캐릭터가 능동적으로 참여할지 좀처럼 참여하지 않게 될지를 결정할 때 이용될 수 있다. 다른 예로, 선호/민감 키워드는 가상 캐릭터가 대상이 되는 주제에 대해서 (스포츠와 같이) 흥미로워하는지 또는 (테러와 같이) 흥미 없어하는지 나타낼 때 이용될 수 있다. 다른 예로, 연민은 사람, 객체 또는 대상에 대해서, 가상 캐릭터가 긍정적인 코멘트를 줄지 부정적인 코멘트를 줄지 나타낼 때 이용될 수 있다. 다른 예로, 액센트(accents)는 가상 캐릭터의 가능한 액센트 타입 및 정도를 나타내기 위해서 이용될 수 있다. 다른 예로, 적응성은 가상 캐릭터의 성격의 장기 변형(long term variation)의 정도를 나타낼 때 이용될 수 있다. 다른 예로, 각성도는 입력되는 스피치 정보에 대한 가상 캐릭터의 민감한 정도를 나타낼 때 이용될 수 있다. 다른 예로, 호기심은 가상 캐릭터가 질문하는 동작을 나타낼 때 이용될 수 있다. 다른 예로, 반항성은 가상 캐릭터가 명령을 수행하는 동작을 나타내기 위해 이용될 수 있다. 다른 예로, 설득력은 가상 캐릭터의 유창하고 꾸민 문장을 이용하는 경향을 나타내기 위해 이용될 수 있다. 다른 예로, 관용구는 가상 캐릭터가 자주 사용하는 어구나 문장을 나타내기 위해 사용될 수 있다. 다른 예로, 수다스러움은 가상 캐릭터가 많이 말하는 정도를 나타내기 위해 사용될 수 있다. 다른 예로, 기질은 특정 주제에 대한 가상 캐릭터의 특별한 리액션 모드를 나타내기 위해 이용될 수 있다. 다른 예로, 응답성은 가상 캐릭터의 요청이나 문의의 적극성을 나타내기 위해 사용될 수 있다. 다른 예로, 감성은 가상 캐릭터가 강한 기분을 발전시키는 경향을 나타내기 위해 이용될 수 있다. 다른 예로, 수면 시간은 낮 시간에 가상 캐릭터가 낮은 응답성을 갖게되는 성향을 나타내기 위해 이용될 수 있다.
일 실시 예에 따른 상태 변수는 가상 캐릭터의 행동 특성을 결정하기 위해 이용될 수 있다. 상태 변수는 이전 상태 변수, 통신 단말을 통해 입력되는 스피치 정보, 성격 변수 등에 따라 결정될 수 있다. 예를 들면, 적극성은 가상 캐릭터가 얼마나 적극적으로 이슈에 대해 말하는지를 나타낼 수 있다. 높은 적극성은 자주, 길게 빠르게 자발적으로 말하는 것을 나타낼 수 있다. 다른 예로, 감정 상태는 가상 캐릭터가 스피치를 통해서 나타내는 감정의 타입(기쁨 및 우울을 포함함) 및 강도를 나타낼 수 있다. 다른 예로, 스피치 방식은 가상 캐릭터의 현재 스피치의 방식을 나타낸다. 스피치 방식은 특정 타입의 방언에 적응 정도 및 빈도, 형식(formality) 및 친숙함(familiarity)의 정도 및 특정 목소리의 요청을 포함할 수 있다. 다른 예로, 즉흥성은 가상 캐릭터가 대화를 얼마나 적극적으로 시작하는지 나타낼 수 있다.
일 실시 예에 따른 출력부(930)는 제어부(920)에서 획득한 가상 스피치를 출력한다.
예를 들면, 일 실시 예에 따른 출력부(930)는 제어부(920)에서 획득한 가상 스피치를 음성 형태로 출력할 수 있다. 다른 예로, 일 실시 예에 따른 출력부(930)는 제어부(920)에서 획득한 가상 스피치를 문자 형태로 출력할 수 있다.
일 실시 예에 따른 출력부(930)는 가상 스피치를 통화중인 두 참여자 중 어느 한 참여자에게만 제공할 수 있다. 또는 일 실시 예에 따른 출력부(930)는 제어부(920)에서 획득한 가상 스피치를 통화중인 두 참여자 모두에게 제공할 수 있다. 일 실시 예에 따른 출력부(930)는 스피커 등을 통하여 단수 또는 복수의 참여자에게 제어부(920)에서 획득한 가상 스피치를 출력할 수 있다.
일 실시 예에 따른 출력부(930)는 제어부(920)에서 획득된 상태 정보에 따른 표현 방식의 가상 스피치를 출력할 수 있다. 예를 들면 가상 스피치는 로컬 통신 단말의 스피커를 통해 직접 출력될 수 있다. 가상 스피치는 부호화 과정이 수행된 후 전화 네트워크를 통해 원거리 통신 단말로 전송될 수 있고, 원거리 통신 단말의 스피커를 통해 원거리 통신 단말에 의해 출력될 수 있다.
도 10은 일 실시 예에 따른 수신부(910)의 구성을 나타내는 블록도이다.
도 10을 참조하면, 일 실시 예에 따른 수신부(910)는 스피치 파저 (1010), 및 상태 정보 획득부(1020) 를 포함한다. 도 10에 도시된 수신부(910)에는 본 실시 예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 10에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
일실시 예에 따른 스피치 파저(1010)는 디바이스(100)에 입력되는 음성 신호를 분석하여 스피치 정보를 추출할 수 있다.
일 실시 예에 따른 상태 정보 획득부(1020) 상태 정보를 획득 또는 저장할 수 있다.
제어부(920)는 스피치 정보 및 상태 정보에 따른 표현 속성을 갖는 가상 스피치를 생성할 수 있다. 출력부(930)는 가상 스피치를 출력할 수 있다. 스피치 정보 및 가상 스피치는 스피치의 감정 및 표현 스타일(phrasing style)과 같은 넌-컨텐츠 정보를 나타내기 위해서 사용되는 표현 속성을 포함할 수 있다. 표현 속성은 감정 상태 및/또는 표현 모드를 포함할 수 있다. 스피치 정보는 오디오로 입력되는 사람의 목소리 특성과 같은 다른 정보를 포함할 수 있다.
표현 속성의 감정 상태는 기쁜, 화남, 슬픔, 우울 및 온화를 포함할 수 있으나, 이에 제한되지 않는다. 표현 속성의 표현 모드는 표현 스타일, 액센트 타입, 방언 빈도, 방언 정도, 방언 톤, 상황 모드 및 배경 소리 중 적어도 하나를 포함할 수 있으며 이에 제한되지 않는다.
일 실시 예에 따른 스피치 파저(1010)는 통신 단말로 입력되는 오디오를 분석하고, 스피치 정보를 추출할 수 있다. 추출된 스피치 정보는 컨텐츠 정보(예: 주제, 키워드), 표현 모드 정보(예: 액센트), 및 감정 상태 정보(예: 오디오를 입력하는 사람의 기쁨의 감정 상태)를 포함할 수 있으며 이에 제한되지 않는다. 또한, 스피치 파저(1010)는 전자 디바이스로 입력되는 오디오로부터 컨텐츠 정보를 인식하기 위한 스피치 인식 모듈(미도시), 및 오디오로부터 표현 속성 정보를 인식하기 위한 표현 속성 인식 모듈(미도시)를 포함할 수 있다.
일 실시 예에 따른 상태 정보 획득부(1020)은 상태 정보를 저장하기 위해 사용될 수 있다. 상태 정보는 가상 캐릭터의 행동 및 성격을 나타내기 위해 이용되는 정보를 포함할 수 있다. 상태 정보는 스피치 파저(1010) 등에 의해 획득되는 스피치 정보에 따라서 갱신될 수 있다. 통신에 실제 참여하는 각 참여자에 대해서 가상 캐릭터는 가상 스피치를 이용하여 통화에 참여할 수 있다. 일 실시 예에 따른 가상 캐릭터의 가상 스피치의 생성은 상태 정보 획득부(1020)에 저장된 상태 정보에 따라 결정될 수 있다.
일 실시 예에 따라 상태 정보는 성격 변수 및 상태 변수를 포함할 수 있다. 성격 변수는 통신 단말로 입력되는 스피치 정보에 대응하는 가상 캐릭터의 일반적 기질(disposition)을 나타내기 위해 사용될 수 있고, 통신 단말의 사용자와 다른 사람과의 장시간 통신을 통해 바뀔 수 있다. 예를 들면 성격 변수는 선호/민감 주제, 선호/민감 키워드, 연민(sympathy), 액센트, 적응성(adaptability), 각성도(alterness), 호기심, 반항성, 설득력(eloquence), 관용구(idioms), 수다스러움(loquacity), 특성(peculiarities), 응답성(responsiveness), 감성(sentimentality), 수면 시간 중 적어도 하나를 포함할 수 있으며 이에 제한되지 않는다. 상태 변수는 가상 캐릭터의 행동 특성을 나타내기 위해 사용되고 이전 상태 변수, 통신 단말을 통해 입력되는 스피치 정보, 상술된 성격 변수 등에 따라 변할 수 있다. 예를 들면, 상태 변수는 적극성(activeness), 감정 상태(emotional state), 표현 모드(expression mode), 즉흥성(spontaneity) 중 적어도 하나를 포함할 수 있으며 이에 제한되지 않는다. 성격 변수 및 상태 변수는 디폴트로 셋팅되어 있거나 사용자의 명력으로 획득될 수 있다. 예를 들면, 디바이스(100)의 사용자는 사용자의 선호 가상 캐릭터의 상태 정보를 복사하기 위해서 디바이스(100)에 복사/갱신 명령을 송신할 수 있고, 디바이스(100)의 상태 정보 획득부의 상태 정보를 갱신 할 수 있다.
일 실시 예에 따른 상태 정보 획득부(1020)는 제어부(920)의 제어 하에서, 상태 정보 획득부(1020)에 저장된 상태 정보 및 스피치 파저(1010)에 의해 획득된 스피치 정보 등에 따라서 저장된 상태 정보를 갱신할 수 있다. 제어부(920)는 스피치 파저(310)에 의해 획득되는 스피치 정보 및 사용자로부터의 갱신 명령 중 적어도 하나에 따라서 상태 정보의 성격 변수를 갱신할 수 있다. 또한, 제어부(920)는 상태 정보의 성격 변수, 스피치 파저(1010)에 의해 획득되는 스피치 정보 및 사용자로부터의 갱신 명령 중 적어도 하나에 따라서 상태 정보의 상태 변수를 갱신할 수 있다.
일 실시 예에 따른 제어부(920)는 사용자로부터의 갱신 명령에 따라서 성격 변수를 갱신할 수 있다. 예를 들면, 제어부(920)는 통신 단말의 사용자로부터의 복사/갱신 명령을 수신함으로서 사용자의 선호 가상 캐릭터의 성격 변수를 복사할 수 있고 상태 정보 획득부(1020)의 성격 변수를 갱신할 수 있다. 또한, 제어부(920)는 스피치 파저(1010)에 의해 획득된 스피치 정보에 따라서 성격 변수를 갱신할 수 있다. 예를 들면, 제어부(920)는 스피치 정보의 컨텐츠의 분석 및 통계를 수행하고, 스피치 정보의 컨텐츠 내의 높은 빈도의 관용구를 결정하여 성격 변수 내의 관용구를 갱신 하거나 보강(enrich)할 수 있다.
일 실시 예에 따른 제어부(920)는 성격 변수 및 상태 변수간의 관련성에 따라서 상태 변수를 갱신할 수 있다. 예를 들면, 성격 변수에서, 각성도, 호기심, 선호 주제, 선호 키워드, 연민, 수다 및 응답성(responsiveness)은 상태 변수의 적극성에 긍정적인 영향을 줄 수 있다. 예를 들면, 각성도, 호기심, 선호 주제, 선호 키워드, 연민, 수다 및 응답성이 높거나 강한 경우 적극성이 강할 수 있다. 성격 변수에서 수면 시간은 적극성에 부정적으로 작용할 수 있다. 예를 들면, 수면 시간 동안에는 적극성이 낮을 수 있다. 성격 변수의 기질(peculiarities)은 상황에 따라 적극성에 긍정적으로 또는 부정적으로 영향을 줄 수 있다.
일 실시 예에 따른 제어부(920)는 스피치 파저(1010)에 의해 획득되는 스피치 정보에 따라 상태 변수를 갱신할 수 있다. 예를 들면, 상술된 스피치 정보를 입력하는 사용자가 빈번하게 가상 캐릭터와 통신하는 경우, 상태 변수의 적극성이 증가할 수 있다. 상술된 스피치 정보를 입력하는 사용자가 드물게 가상 캐릭터와 통신하거나 다른 것에 중점을 두는 경우, 상태 변수의 적극성이 감소할 수 있다. 또한, 성격 변수 데이터 및 상태 변수는 사용자에 의해 직접 결정될 수 있다. 예를 들면 적극성은 사용자로부터의 입력에 따라 특정 값으로 조절될 수 있다.
도 11은 일 실시 예에 따른 제어부(920)의 구성을 나타내는 블록도이다.
도 11을 참조하면, 일 실시 예에 따른 제어부(920)는 플래너(1110), 및 음성 합성부(1120) 를 포함한다. 도 11에 도시된 제어부(920)에는 본 실시 예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 11에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
일 실시 예에 따른 제어부(920)는 플래너(1110) 및 음성 합성부(1120)를 포함할 수 있다. 도 11은 일 실시 예에 따른 제어부(920)의 구조의 도면을 도시한다. 도 11에 도시된 바와 같이 제어부(920)는 플래너(1110) 및 음성 합성부(1120)를 포함할 수 있다. 플래너(1110)는 ⅰ)상태 정보 획득부(1020)에 저장된 상태 정보 및 스피치 파저(1010)에 의해 획득된 스피치 정보에 따라서 생성될 가상 스피치의 ㅍ현 속성 및 컨텐츠를 결정하거나, ⅱ)가상 스피치의 컨텐츠에 따라서 텍스트 기술어(text descriptor)를 생성하거나, ⅲ)표현 속성에 따라서 표현 속성 기술어를 생성하기 위해서 이용될 수 있다. 음성 합성부(1120)는 텍스트 기술어 및 표현 속성 기술어에 따라서 가상 스피치를 생성할 수 있다. 플래너(1110)는 ⅰ)스피치 파저(1010)에 의해 획득된 스피치 정보를 분석하고, ⅱ)가상 스피치의 컨텐츠 및 피치 정보의 표현 속성에 따라서, 사람, 주제, 키워드, 문장 구조 등과 같은 정보를 인식하고, ⅲ)스피치 정보에 따라서 가상 스피치의 컨텐츠를 결정할 수 있다.
일 실시 예에 따른 플래너(1110)의 결정에 따라 생성된 가상 스피치의 컨텐츠는 자발적인 컨텐츠 및 상호적인 컨텐츠를 포함할 수 있다. 자발적인 컨텐츠는 인사(greeting), 사용자에 대한 명령, 이벤트 리마인더, 코멘트 및 질문 중 적어도 하나를 포함할 수 있으며 이에 제한되지 않는다. 상호적인 컨텐츠는 인사(greeting), 사용자에 대한 명령, 이벤트 리마인더, 코멘트 및 질문 중 적어도 하나에 대한 대답을 포함할 수 있다. 예를 들면, 사용자 입력 오디오의 신원(identity)이 상술된 스피치 정보의 목소리 정보에 따라서 인식된 경우(예: 사용자 정보 데이터 베이스로 신원이 인식됨), 플래너(1110)의 결정에 따라 생성된 가상 스피치의 자발적인 컨텐츠는 인사에 응답하거나 사용자에게 인사하는 것을 포함할 수 있고, 인사의 컨텐츠는 사용자의 이름을 포함할 수 있다. 흥미로운 주제가 상술된 스피치 정보에서 탐지된 경우, 플래너(1110)의 결정에 따라 생성된 가상 스피치의 상호적인 컨텐츠는 주제에 대한 코멘트를 포함할 수 있다.
도 12는 일 실시 예에 따른 음성 합성부(1120)의 구성을 나타내는 블록도이다.
도 12를 참조하면, 일 실시 예에 따른 음성 합성부(1120)는 프런트 엔드 처리 모듈(1210), 프런트 엔드 운율 체계 처리 모듈(1220) 및 백엔드 파형 합성기(1230) 를 포함한다. 도 12에 도시된 음성 합성부(1120)에는 본 실시 예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 12에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
일 실시 예에 따른 음성 합성부(1120)는 ⅰ)텍스트 기술어에 따라 발음 기호(phonetic label)를 생성하는 프런트 엔드 텍스트 처리 모듈(1210), ⅱ)표현 속성 기술어에 따라 운율 체계 변조 기술어(prosody modulation descriptor)를 생성하기 위한 프런트-엔드 운율 체게 처리 모듈(1220) 및 ⅲ) 발음 기호 및 운율 체계 변조 기술어에 따라 가상 스피치를 생성하는 백엔드 파형 합성기(1230)를 포함할 수 있다. 발음 기호는 생성될 스피치의 각 단위의 발음(articulation) 억양(intonation)등과 같은 특징을 나타내기 위해 사용될 수 있다. 운율 체계 변조 심볼은 생성될 스피치내의 단어와 문장의 운율 체계, 리듬 감정과 같은 특징을 나타내기 위해 이용될 수 있다.
일 실시 예에 따라, 제어부(920)는 디바이스(100)로 입력된 오디오 또는 디바이스(100)로 입력된 오디오와 가상 스피치가 중첩되는 스피치 중 하나를 출력될 가상 스피치로 결정할 수 있다. 예를 들면, 제어부(920)는 통신 단말의 사용자에 의해 입력된 오디오를 출력될 오디오로 선택할 수 있다. 이 경우 통화 참여자는 가상 캐릭터가 대화에 참여하고 있지 않다고 느낄 수 있다. 다른 예로, 제어부(920)는 디바이스(100)로 입력된 오디오와 가상 스피치가 중첩되는 스피치를 출력하도록 선택할 수 있다. 이 경우 통화 참여자는 가상 캐릭터가 대화에 참여하고 있다고 느낄 수 있다.
도 13은 일 실시 예에 따른 제어부(920)의 구성을 나타내는 블록도이다.
도 13은 일 실시 예에 따라 디바이스(100)가 가상 스피치를 출력하도록 제어하는 제어부(920)를 나타내는 도면이다. 도 13에 도시된 바와 같이 제1 제어부(1362)는 가상 스피치(1370)(로컬 사용자와 상호 작용하는 가상 스피치와 같은) 및 원거리 마이크 등(1311)를 통해서 획득되고, 원거리 사용자에 의해 입력되는 오디오(1354)를 로컬 믹서(1342)을 통해서 중첩하여 로컬 출력부(1322) (예: 로컬 사용자의 스피커)로 출력하도록 디바이스(100)를 제어할 수 있다. 제2 제어부(1361)는 가상 스피치(1352)(원거리 사용자와 상호 작용하는 가상 스피치와 같은) 및 로컬 사용자에 의해 마이크 등(1312)을 통해서 입력되는 오디오(1353)를 원거리 믹서(1341)를 통해서 중첩하여 원거리 출력부(1321)(원거리 사용자의 스피커)를 통해서 출력하도록 디바이스(100)를 제어할 수 있다. 제2 제어부(1361)는 로컬 사용자에 의해 입력되는 오디오(1353)를 원거리 출력부(1321)의 출력으로 출력할 수 있다. 제1 제어부(1362)는 원거리 단말의 사용자에 의해 입력되는 오디오(1354)를 로컬 출력부(1322)로 출력할 수 있다. 제어부(920)는 로컬 출력부(1322)로 가상 스피치(1370)를 출력하거나, 원거리 출력부(1321)로 가상 스피치(1370)를 출력할 수 있다. 상술된 과정에서, 제1 제어부(1362)는 키보드나 마우스(1330)와 같은 사용자의 넌-보이스 입력을 수신할 수 있다.
일 실시 예에 따라, 제어부(920)가 디바이스(100)로 입력되는 오디오를 출력으로 결정하는 경우, 제어부(920)는 출력이 지연되도록 로컬 출력부(1322) 또는 원거리 출력부(1321)를 제어할 수 있다. 일 실시 예에 따른 제어부(920)는 출력 명령이 수신된 경우 오디오를 출력하기 위해서 로컬 출력부(1322) 또는 원거리 출력부(1321)를 제어할 수 있다. 일 실시 예에 따른 제어부(920)는 통신 중에, 디바이스(100)로 입력되는 오디오에 대한 출력을 지연시킬 수 있다. 지연되는 동안, 일 실시 예에 따른 제어부(920)는 사적 모드(private mode)로 통신의 단수 또는 복수의 참여자에게 가상 스피치를 출력할 수 있다. 지연된 출력은 통신에서 하나의 문장 또는 하나의 단락의 취소 효과를 가져올 수 있다.
도 14는 일 실시 예에 따른 제어부(920)의 구성을 나타내는 블록도이다.
도 14를 참조하면, 일 실시 예에 따른 제어부(920)는 결정부(1420), 제1 공간 필터(1430) 및 제2 공간 필터(1440)를 포함한다. 도 14에 도시된 제어부(920)에는 본 실시 예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 14에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
일 실시 예에 따른 제어부(920)가 출력으로서 가상 스피치와 오디오의 중첩을 결정한 경우, 디바이스(100)는 오디오 및 가상 스피치를 공간적 필터링(spatially filtering)하기 위해 이용될 수 있다. 또한, 도 14에서는 일 실시 예에 따라 제어부(920)가 오디오를 필터링하는 것을 나타내는 도면을 도시한다. 도 14에 도시된 바와 같이 결정부(1420)는 제어부(920)의 제어 하에서, 하나 또는 둘의 오디오 (1411) 및 가상 스피치(1412)가 출력되도록 선택할 수 있다. 제어부(920)가 출력으로 오디오 및 가상 스피치의 중첩을 결정한 경우, 결정부(1420)는 오디오(1411) 및 가상 스피치(1412)가 출력되도록 동시에 선택하고, 공간 필터링(예: 수도-공간 필터(pseudo-spatial filters)를 이용)을 수행할 수 있다.
도 15는 일 실시 예에 따른 데이터 베이스(1500)의 구성을 나타내는 블록도이다.
도 15를 참조하면, 일 실시 예에 따른 데이터 베이스(1500)는 사람 데이터 베이스(1510), 객체 데이터 베이스(1520) 및 기록 데이터 베이스(1530)를 포함한다. 도 15에 도시된 데이터 베이스(1500)에는 본 실시 예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 15에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
일 실시 예에 따라 디바이스(100)는 지식 정보를 저장하는 데이터 베이스를 포함할 수 있다. 지식 정보는 사람과 객체를 나타내는 정보일 수 있다. 여기서, 제어부(920)는 ⅰ)스피치 파저에 의해 획득되는 스피치 정보, ⅱ)상태 정보 획득부(1020)의 상태 정보, ⅲ)데이터 베이스에 저장된 지식 정보에 따라서, 표현 속성을 갖는 가상 스피치를 생성하기 위해 이용될 수 있다. 예를 들면, 스피치 정보는 데이터 베이스에 저장된 주제를 포함할 수 있고, 제어부(920)는 데이터 베이스에 저장된 주제와 관련된 주제 정보 및 상태 정보를 이용하여 주제에 대해 코멘트하는 가상 스피치를 생성할 수 있다.
도 15는 일 실시 예에 따라서 데이터 베이스(1500)의 구조를 나타내는 도면이다. 도 15에 도시된 바와 같이 데이터 베이스(1500)는 사람에 대한 정보를 저장하기 위한 사람 데이터베이스(1510), 발음 기호 정보 및 상식 정보를 저장하는 객체 데이터베이스(1520) 및 주제의 정보 및 이벤트의 정보나 사물의 정보를 저장하기 위한 기록 데이터베이스(memorandum database)(1530)를 포함할 수 있다.
일 실시 예에 따른 사람 데이터 베이스(1510)에 저장되고 기록된 객체는 ⅰ)전자 디바이스의 사용자, ⅱ)사용자의 연락처(예: 연락처 목록의 연락처들) 및 ⅲ)다른 연결(예: 부모, 친구 직장동료 등)을 포함할 수 있다. 사람 데이터 베이스(1510)는 상술된 객체의 관련된 데이터를 포괄적으로(comprehensively) 저장할 수 있다. 관련된 데이터는 사람의 이름, 성별, 나이 등; 어떤 객체와 다른 객체간의 관련성을 결정하기 위한 사회적 관계의 정보; 및 차후의(subsequent) 데이터 관리를 위한(예: 통신 후 소정 기간 동안) 사회적 관계 정보 및 사람의 정보의 출처와 관련된 정보를 포함할 수 있으며 이에 제한되지 않는다. 상술된 사람 데이터 베이스(1510)의 정보는 사용자 입력, 자동 연락처 목록 검색, 자동 온라인 서치 등을 통해서 획득될 수 있다.
일 실시 예에 따른 객체 데이터베이스(1520)에 저장된 정보는 스피치 파저를 위한 발음 기호 및 지식 검색을 위한 공통 지식 정보 중 적어도 하나를 포함할 수 있다. 정보는 키워드(및 키워드의 동음이의어), 공통적으로 알려진 정보(예: 공통적으로 알려진 사람 및 장소와 공통 어휘), 발음 기호 및 이런 단어의 출처를 포함할 수 있다. 객체 데이터 베이스(1520)의 정보는 사용자 입력, 공공 사전, 자동 온라인 검색 중 적어도 하나를 출처로 할 수 있다.
일 실시 예에 따른 기록 데이터베이스(1530)는 사람에 대한 것이 아닌 객체에 대한 일반적이지 않은 (non-common) 지식을 저장할 수 있다. 사물에 대한 정보, 이벤트의 정보 및 주제의 정보 외에도, 기록 데이터베이스(1530)는 차후의 데이터베이스 관리를 위한 상술된 정보의 출처와 관련된 정보를 저장할 수 있다. 기록 데이터베이스(1530)는 사용자 입력, 사용자 달력(로그), 분석으로부터 획득될 수 있다.
도 16은 일 실시 예에 따른 데이터 베이스(1500)의 구성을 나타내는 블록도이다.
일 실시 예에 따른 데이터 베이스(1500)는 외부 데이터 베이스(1610)와 연결되어 동작할 수 있다.
도 16에서 일 실시 예에 따른 데이터 베이스(1500)의 사람 데이터베이스(1510), 객체 데이터 베이스(1520) 및 기록 데이터 베이스(1530)간의 관련성을 도시한다. 도 10에 도시된 바와 같이 사람 데이터 베이스(1510)는 이름, 목소리 특징, 사회적 관계, 나이, 전화번호 등과 같은, 외부 데이터 베이스(1610)에 저장된 사용자 연락처 목록의 복수개의 연락처의 데이터를 포함한다. 일 실시 예에 따른 사람 데이터 베이스(1510)의 일부 데이터를 나타내는 일반적으로 알려진 상식 데이터는 일 실시 예에 따른 객체 데이터 베이스(1520)에 저장될 수 있다. 예를 들면, 일 실시 예에 따른 사람 데이터 베이스(1520)는 홍길동이라는 사람에 의해 구입된 보드카라는 아이템을 나타내는 데이터를 포함할 수 있다. 도 16에서 일 실시 예에 따른 기록 데이터 베이스(1530)는 이벤트(예: 영희와 철수가 보드카 가격에 대해 의논), 주제의 정보(예: 지난번 연락시 주제는 축구) 등의 정보를 포함할 수 있다. 도 16에 따르면, 통화의 원거리 참여자가 홍길동인 경우, 제어부(920)는 홀길동의 아내인 영희의 안부를 묻는 가상 스피치를 생성할 수 있다. 일 실시 예에 따라 생성된 가상 스피치는 영희와 관련된 주제인 보드카나 서울과 관련된 주제를 포함할 수 있다.
일 실시 예에 따라 사람 데이터 베이스(1510)에 저장된 사람의 정보는 사람의 스피치/목소리 특징의 정보를 포함할 수 있다. 그리고, 디바이스(100)는 목소리 특성 정보에 따라서 디바이스(100)에 입력되는 오디오와 관련된 사람의 신원을 확인하기 위한 발언자(speaker) 인식기(미도시)를 더 포함할 수 있다. 예를 들면, 일 실시 예에 따른 디바이스(100)는 통신의 원거리 사용자의 목소리 특징의 정보를 추출하고, 추출된 정보에 매치되는 목소리 특징의 후보(entry)가 저장된 사람 데이터 베이스(1510)를 검색함으로써 원거리 사용자를 식별할 수 있다.
일 실시 예에 따른 디바이스(100)는 사전 데이터베이스에 저장된 정보에 따라서 저장된 문법(syntax) 패턴에 매치되는 문장으로부터 정보를 추출하기 위한 패턴 매치부(미도시)를 더 포함할 수 있다. 저장된 문법 패턴은 의문문의 문장 구조, 평서문인 문장 구조, 명령문인 문장 구조를 포함할 수 있으면 이에 제한되지 않는다.
일 실시 예에 따른 제어부(920)는 데이터 베이스(1500)의 지식 정보를 갱신하기 위해 이용될 수 있다. 특히, 제어부(920)는 적극적으로 또는 수동적으로 온라인 서치, 질문, 자동 간섭, 빈칸 채우기, 불확실 필드 매칭, 새로운 필드 발견, 새로운 값 발견 등 중 적어도 하나에 의해 지식 정보를 갱신할 수 있다. 예를 들면, 제어부(920)는 디바이스(100)를 통해 획득되는 스피치 정보로부터 데이터 베이스(1500)의 불확실한 영역이나 비워진 값을 정기적으로 탐색할 수 있고, 소정의 갱신 방법으로 불확실하거나 비워진 값을 채울 수 있고, 데이터 베이스에 저장된 정보를 갱신할 수 있다. 다른 예로, 제어부(920)는 계속해서 통신에서 키워드, 주된 주제 및 올바르게 구성된 문장을 모니터하여 데이터 베이스(1500)에 다양한 지식 정보를 모을 수 있다.
일 실시 예에 따른 제어부(920)는 통신이 종료된 이후 데이터 베이스(1500)의 데이터에 대한 관리 동작을 수행할 수 있다. 예를 들면, 원거리 사용자의 목소리 특징과 사람 데이터 베이스(1510)에 저장된 사람의 목소리 특징의 매칭이 통신하는 동안 완료되지 않은 경우, 통신 후에도, 목소리 특징에 대응되는 사람의 식별 정보가 발견되거나 사람 데이터 베이스(1510) 내의 목소리 특징의 모든 정보가 비교될 때까지, 제어부(920)는 원거리 사용자의 목소리 특징과 사람 데이터 베이스(1510)의 목소리 특징을 매칭하기 위해 동작할 수 있다.
도 17은 일 실시 예에 따른 감정 정보의 일례를 나타내는 도면이다.
일 실시 예에 따다 도 17에서는 상태 정보의 적극성과 관련된 변수의 변화를 도시한다. 가상 캐릭터가 작동(enable)되는 경우, 상태 정보의 적극성은 비활성 상태(disabled state)(1710)(예: 0에 대응되는 적극성 변수값)에서 수동 상태(passive state)(1720)(예: 1에 대응되는 적극성 변수값)로 변화 될 수 있다. 가상 캐릭터에게 인사하는 것과 같이 사용자가 가상 캐릭터를 작동시키면(arouse) 적극성이 활성화 상태(active state)(1730) (예: 2에 대응되는 적극성 변수값)로 변화 될 수 있다. 사용자가 빈번하게 가상 캐릭터와 통신하는 경우, 적극성은 과잉 활성 상태(hyperactive state)(1740) (예: 3에 대응되는 적극성 변수값)로 변화 될 수 있다. 사용자가 가상 캐릭터와 빈번하게 통신하지 않는 경우처럼, 사용자의 관심이 다른 쪽으로 옮겨가면, 적극성은 활성화 상태(1730)로 변화 될 수 있다. 사용자가 가상 캐릭터를 계속 무시하거나 직접적으로 가상 캐릭터에게 “조용히”와 같이 명령을 하면 적극성은 수동적 상태(1720)로 변할 수 있다. 사용자가 가상 캐릭터를 계속해서 무시하거나 가상 캐릭터와 더 이상 통신하지 않는 경우 적극성은 비활성 상태(1710)로 변할 수 있다.
도 18은 일 실시 예에 따른 서버(1800)가 정보를 제공하는 일례를 도시한 도면이다.
도1 내지 도17에서 상술된 디바이스(100)가 수행하는 동작은 서버(1800)에 의해 구현될 수 있다.
통화는 2인간에 수행될 수도 있고, 3인간에 수행될 수 있다. 예를 들면, 제1 통신 단말(110) 및 제2 통신 단말(120)을 이용하여 2인간의 통화가 수행될 수 있고, 다른 예로, 제1 통신 단말(110), 제2 통신 단말(120) 및 서버(1800)를 이용하여 3자간의 통화가 수행될 수 있다.
2인간의 통화가 수행되는 경우, 긴장감, 불편함 등이 유발될 수 있으나, 3인간의 통화가 수행되는 경우, 상대적으로 긴장감, 불편함 등이 해소될 수 있다. 예를 들면, 일 실시 예에 따라, 제1 통신 단말(110)과 제2 통신 단말(120)을 통한 2인간의 통화가 수행되는 도중에 서버(1800)가 3번째 참여자로서 통화에 참여하는 경우, 폐쇄되고 맞대응(tit-for-tat)하는 2인 통화의 분위기가 진정된 분위기로 전환될 수 있다. 일 실시 예에 따른 서버(1800)에 의해 통화에 참여하는 3번째 참여자는 가상 캐릭터일 수 있다. 예를 들면, 서버(1800)에 의해 제1 통신 단말 또는 제2 통신 단말로 전송되는 음성 신호는 가상 캐릭터의 가상 스피치일 수 있다.
일 실시예에 따라 서버(1800)는 제1통신 단말(110)이나 제2통신 단말(120)과는 별도의 서버로 구현되어 제1통신 단말(110)과 제2통신 단말(120)사이의 통신에 개입할 수 있다.
일 실시예에 따라 서버(1800)는 제1통신 단말(110)의 내부에 배열되어 제1통신 단말(110)과 제2통신 단말(120)사이의 통신에 개입할 수 있다.
일 실시예에 따라 서버(1800)는 제2통신 단말(120)의 내부에 배열되어 제1통신 단말(110)과 제2통신 단말(120)사이의 통신에 개입할 수 있다.
일 실시 예에 따른 서버(1800)는 도 9에 도시된 수신부(910), 제어부(920) 및 출력부(930) 를 포함할 수 있다.
일 실시 예에 따른 서버(1800)는 통신 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 통신 단말을 통해 획득할 수 있다.
일 실시 예에 따른 스피치 정보는 음성 신호를 통해 획득되는 정보를 포함할 수 있다. 예를 들면, 스피치 정보는 통신 단말을 통해 수신되는 통신 단말 사용자의 음성 신호로부터 획득되는 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말 사용자의 음성 신호의 분석을 통해 획득되는 키워드 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말 사용자의 음성 신호의 분석을 통해 획득되는 목소리 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말이 획득하는 적어도 하나의 참여자의 음성 정보를 포함할 수 있다.
일 실시 예에 따른 서버(1800)는 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득할 수 있다.
일 실시 예에 따른 상태 정보는 적어도 하나의 참여자 및/또는 가상 캐릭터의 현재 감정 상태를 나타내는 감정 정보(emotion information), 적어도 하나의 참여자 및/또는 가상 캐릭터의 인적 정보(personal information), 대화에 대한 주제 정보(topic information), 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 적어도 하나의 참여자 및/또는 가상 캐릭터의 성격 정보(personality information) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 서버(1800)는 스피치 정보 및/또는 상태 정보에 기초하여 적어도 하나의 참여자에게 제공될 가상 스피치를 획득 또는 결정할 수 있다. 예를 들면 일 실시 예에 따른 서버(1800)는 복수개의 가상 스피치 중 하나를 참여자에게 제공될 가상 스피치로 결정할 수도 있고, 참여자에게 제공될 가상 스피치를 생성할 수도 있다.
일 실시 예에 따른 서버(1800)는 획득한 가상 스피치를 출력할 수 있다.
예를 들면, 일 실시 예에 따른 서버(1800)는 획득한 가상 스피치를 음성 형태로 출력할 수 있다. 다른 예로, 일 실시 예에 따른 서버(1800)는 획득한 가상 스피치를 문자 형태로 출력할 수 있다.
일 실시 예에 따른 서버(1800)는 획득한 가상 스피치를 통화중인 두 참여자 중 어느 한 참여자에게만 제공할 수 있다. 또는 일 실시 예에 따른 서버(1800)는 획득한 가상 스피치를 통화중인 두 참여자 모두에게 제공할 수 있다. 일 실시 예에 따른 서버(1800)는 스피커 등을 통하여 단수 또는 복수의 참여자에게 획득한 가상 스피치를 출력할 수 있다.
도 19는 일 실시 예에 따른 통신 단말(1900)이 정보를 제공하는 일례를 도시한 도면이다.
도1 내지 도17에서 상술된 디바이스(100)가 수행하는 동작은 통신 단말(1900)에 의해 구현될 수 있다.
예를 들면, 일 실시 예에 따른 통신 단말(1900)은 도1에서 개시된 제1 통신 단말(110)의 기능, 도1 내지 도17에서 상술된 디바이스(100)의 기능 및 도 8에서 상술된 제1 통신 단말(110)의 기능을 모두 수행할 수 있다.
다른 예로, 일 실시 예에 따른 통신 단말(1900)은 도 8에서 상술된 제1 통신 단말(110)에 대응될 수 있다.
일 실시 예에 따른 통신 단말(1900)은 도 9에 도시된 수신부(910), 제어부(920) 및 출력부(930) 를 포함할 수 있다.
일 실시 예에 따른 통신 단말(1900)은 단말을 이용하여 대화에 참여하는 적어도 하나의 참여자가 제공하는 스피치 정보를 획득할 수 있다.
일 실시 예에 따른 스피치 정보는 음성 신호를 통해 획득되는 정보를 포함할 수 있다. 예를 들면, 스피치 정보는 통신 단말(1900)을 통해 수신되는 통신 단말(1900) 사용자의 음성 신호로부터 획득되는 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말(1900) 사용자의 음성 신호의 분석을 통해 획득되는 키워드 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말(1900) 사용자의 음성 신호의 분석을 통해 획득되는 목소리 정보를 포함할 수 있다. 다른 예로, 스피치 정보는 통신 단말(1900)이 획득하는 적어도 하나의 참여자의 음성 정보를 포함할 수 있다.
일 실시 예에 따른 통신 단말(1900)은 적어도 하나의 참여자의 현재 상태를 나타내는 상태 정보를 스피치 정보 및/또는 기저장된 데이터를 이용하여 획득할 수 있다.
일 실시 예에 따른 상태 정보는 적어도 하나의 참여자 및/또는 가상 캐릭터의 현재 감정 상태를 나타내는 감정 정보(emotion information), 적어도 하나의 참여자 및/또는 가상 캐릭터의 인적 정보(personal information), 대화에 대한 주제 정보(topic information), 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 적어도 하나의 참여자 및/또는 가상 캐릭터의 성격 정보(personality information) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 통신 단말(1900)은 스피치 정보 및/또는 상태 정보에 기초하여 적어도 하나의 참여자에게 제공될 가상 스피치를 획득 또는 결정할 수 있다. 예를 들면 일 실시 예에 따른 통신 단말(1900)은 복수개의 가상 스피치 중 하나를 참여자에게 제공될 가상 스피치로 결정할 수도 있고, 참여자에게 제공될 가상 스피치를 생성할 수도 있다.
일 실시 예에 따른 통신 단말(1900)은 획득한 가상 스피치를 출력할 수 있다.
예를 들면, 일 실시 예에 따른 통신 단말(1900)은 획득한 가상 스피치를 음성 형태로 출력할 수 있다. 다른 예로, 일 실시 예에 따른 통신 단말(1900)은 획득한 가상 스피치를 문자 형태로 출력할 수 있다.
일 실시 예에 따른 통신 단말(1900)은 획득한 가상 스피치를 통화중인 두 참여자 중 어느 한 참여자에게만 제공할 수 있다. 또는 일 실시 예에 따른 통신 단말(1900)은 획득한 가상 스피치를 통화중인 두 참여자 모두에게 제공할 수 있다. 일 실시 예에 따른 통신 단말(1900)은 스피커 등을 통하여 단수 또는 복수의 참여자에게 획득한 가상 스피치를 출력할 수 있다.
일 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (20)

  1. 정보 제공 방법에 있어서,
    통신 단말들을 각각 이용하여 대화에 참여하는 둘 이상의 참여자들 중 제1 참여자가 제공하는 스피치 정보를 통신 단말을 통해 획득하는 단계;
    상기 스피치 정보를 상기 참여자들 중 제2 참여자에게 제공하는 단계;
    상기 제1 참여자의 현재 감정 상태를 나타내는 감정 정보를 포함하는 상태 정보를 획득하는 단계; 및
    상기 스피치 정보 및 상기 상태 정보에 기초하여, 상기 스피치 정보가 제1 주제에 연관된 기설정된 키워드를 포함하고 상기 제1 참여자의 상기 현재 감정 상태가 상기 제1 참여자의 정상 상태와 다른 것으로 결정한 것에 응답하여, 상기 제1 주제와 상이한 제2 주제에 연관된 컨텐츠를 포함하는 가상 스피치를 상기 제1 참여자 및 상기 제2 참여자 중 적어도 하나의 참여자에게 제공하는 단계를 포함하는 정보 제공 방법.
  2. 제 1 항에 있어서,
    상기 스피치 정보를 상기 통신 단말을 통해 획득하는 단계는
    상기 적어도 하나의 참여자에 대한 정보를 획득하기 위해 문의하는 가상 스피치를 출력하는 단계; 및
    상기 문의하는 가상 스피치를 통해 획득된 추가 스피치 정보를 포함하는 상기 스피치 정보를 획득하는 단계를 포함하는 정보 제공 방법.
  3. 제 1 항에 있어서,
    상기 상태 정보는 상기 적어도 하나의 참여자의 인적 정보(personal information), 상기 대화에 대한 주제 정보(topic information), 상기 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 상기 적어도 하나의 참여자의 성격 정보(personality information) 중 적어도 하나를 포함하는 정보 제공 방법.
  4. 제 1 항에 있어서,
    상기 스피치 정보는 상기 통신 단말이 획득하는 상기 제1 참여자의 음성 정보를 포함하는 정보 제공 방법.
  5. 제 1 항에 있어서,
    상기 가상 스피치를 제공하는 단계는
    상기 스피치 정보를 이용하여 상기 가상 스피치의 상기 컨텐츠를 획득하는 단계;
    상기 상태 정보를 이용하여 상기 가상 스피치의 표현 방식을 결정하는 단계; 및
    상기 컨텐츠를 포함하는 상기 가상 스피치를 상기 결정된 표현 방식으로 제공하는 단계를 포함하는 정보 제공 방법.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 가상 스피치를 제공하는 단계는
    상기 감정 정보에 따라 상기 가상 스피치의 상기 컨텐츠 및 표현 방식을 결정하는 단계를 포함하는, 정보 제공 방법.
  8. 제 1 항에 있어서,
    상기 감정 정보는
    감정의 종류에 대한 정보 및 감정의 레벨에 대한 정보를 포함하는 정보 제공 방법.
  9. 삭제
  10. 제 1 항에 있어서,
    상기 제1 참여자의 상기 현재 감정 상태가 상기 제1 참여자의 상기 정상 상태와 다른지 여부는,
    상기 제1 참여자의 감정의 종류 및 상기 종류의 감정이 지속된 시간에 기초하여 결정되는, 정보 제공 방법.
  11. 통신 단말들을 각각 이용하여 대화에 참여하는 둘 이상의 참여자들 중 제1 참여자가 제공하는 스피치 정보를 획득하고,
    상기 스피치 정보를 상기 참여자들 중 제2 참여자에게 제공하고,
    상기 제1 참여자의 현재 감정 상태를 나타내는 감정 정보를 포함하는 상태 정보를 획득하고,
    상기 스피치 정보 및 상기 상태 정보에 기초하여, 상기 스피치 정보가 제1 주제에 연관되고, 상기 제1 참여자의 상기 현재 감정 상태가 상기 제1 참여자의 정상 상태와 다른 것으로 결정한 것에 응답하여,상기 제1 주제와 상이한 제2 주제에 연관된 컨텐츠를 포함하는 가상 스피치를 상기 제1 참여자 및 상기 제2 참여자 중 적어도 하나의 참여자에게 제공하는 제어부를 포함하는 디바이스.
  12. ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 제어부는 상기 적어도 하나의 참여자에 대한 정보를 획득하기 위해 문의하는 가상 스피치를 출력하고,
    상기 문의하는 가상 스피치를 통해 획득된 추가 스피치 정보를 포함하는 상기 스피치 정보를 획득하는 디바이스.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 상태 정보는 상기 적어도 하나의 참여자의 인적 정보(personal information), 상기 대화에 대한 주제 정보(topic information), 상기 적어도 하나의 참여자의 스케줄 정보(schedule information) 및 상기 적어도 하나의 참여자의 성격 정보(personality information) 중 적어도 하나를 포함하는 디바이스.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 스피치 정보는 상기 통신 단말이 획득하는 상기 제1 참여자의 음성 정보를 포함하는 디바이스.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 제어부는
    상기 스피치 정보를 이용하여 상기 가상 스피치의 상기 컨텐츠를 획득하고,
    상기 상태 정보를 이용하여 상기 가상 스피치의 표현 방식을 결정하고,
    상기 컨텐츠를 포함하는 상기 가상 스피치를 상기 결정된 표현 방식으로 제공하는, 디바이스.
  16. 삭제
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 제어부는
    상기 감정 정보에 따라 상기 가상 스피치의 상기 컨텐츠 및 표현 방식을 결정하는, 디바이스.
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    통신 단말들을 각각 이용하여 대화에 참여하는 둘 이상의 참여자들 중 제1 참여자가 제공하는 스피치 정보를 획득하고,
    상기 스피치 정보를 상기 참여자들 중 제2 참여자에게 제공하고,
    상기 제1 참여자의 현재 감정 상태를 나타내는 감정 정보를 포함하는 상태 정보를 획득하고,
    상기 스피치 정보 및 상기 상태 정보에 기초하여, 상기 스피치 정보가 제1 주제에 연관된 기설정된 키워드를 포함하고 상기 제1 참여자의 상기 현재 감정 상태가 상기 제1 참여자의 정상 상태와 다른 것으로 결정한 것에 응답하여, 상기 제1 주제와 상이한 제2 주제에 연관된 컨텐츠를 포함하는 가상 스피치를 상기 제1 참여자 및 상기 제2 참여자 중 적어도 하나의 참여자에게 제공하는 제어부를 포함하는 통신 단말.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    통신 단말들을 각각 이용하여 대화에 참여하는 둘 이상의 참여자들 중 제1 참여자가 제공하는 스피치 정보를 획득하고,
    상기 스피치 정보를 상기 참여자들 중 제2 참여자에게 제공하고,
    상기 제1 참여자의 현재 감정 상태를 나타내는 감정 정보를 포함하는 상태 정보를 획득하고,
    상기 스피치 정보 및 상기 상태 정보에 기초하여, 상기 스피치 정보가 제1 주제에 연관된 기설정된 키워드를 포함하고 상기 제1 참여자의 상기 현재 감정 상태가 상기 제1 참여자의 정상 상태와 다른 것으로 결정한 것에 응답하여, 상기 제1 주제와 상이한 제2 주제에 연관된 컨텐츠를 포함하는 가상 스피치를 결정하는 상기 제1 참여자 및 상기 제2 참여자 중 적어도 하나의 참여자에게 제공하는 제어부를 포함하는 서버.
  20. 제 1 항 내지 제 5 항, 제 7 항, 제 8 항, 및 제 10 항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020150172647A 2015-02-16 2015-12-04 정보 제공 방법 및 디바이스 KR102420564B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP16752649.0A EP3259754B1 (en) 2015-02-16 2016-02-15 Method and device for providing information
PCT/KR2016/001488 WO2016133319A1 (en) 2015-02-16 2016-02-15 Method and device for providing information
US15/044,467 US10468052B2 (en) 2015-02-16 2016-02-16 Method and device for providing information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510084928.7A CN105991847B (zh) 2015-02-16 2015-02-16 通话方法和电子设备
CN201510084928.7 2015-02-16

Publications (2)

Publication Number Publication Date
KR20160100811A KR20160100811A (ko) 2016-08-24
KR102420564B1 true KR102420564B1 (ko) 2022-07-14

Family

ID=56884268

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150172647A KR102420564B1 (ko) 2015-02-16 2015-12-04 정보 제공 방법 및 디바이스

Country Status (2)

Country Link
KR (1) KR102420564B1 (ko)
CN (1) CN105991847B (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683672B (zh) * 2016-12-21 2020-04-03 竹间智能科技(上海)有限公司 一种基于情感和语义的智能对话方法及系统
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
CN108304154B (zh) * 2017-09-19 2021-11-05 腾讯科技(深圳)有限公司 一种信息处理方法、装置、服务器及存储介质
CN107765856A (zh) * 2017-10-26 2018-03-06 北京光年无限科技有限公司 基于多模态交互的虚拟人视觉处理方法及系统
JP7192222B2 (ja) * 2018-03-08 2022-12-20 トヨタ自動車株式会社 発話システム
CN108986804A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 人机交互处理方法、装置、用户终端、处理服务器及系统
CN109036433A (zh) * 2018-07-27 2018-12-18 重庆柚瓣家科技有限公司 基于ai的社交辅助系统及方法
CN109274819A (zh) * 2018-09-13 2019-01-25 广东小天才科技有限公司 通话时用户情绪调整方法、装置、移动终端及存储介质
CN109040471B (zh) * 2018-10-15 2020-09-22 Oppo广东移动通信有限公司 情绪提示方法、装置、移动终端以及存储介质
CN111192568B (zh) * 2018-11-15 2022-12-13 华为技术有限公司 一种语音合成方法及语音合成装置
KR102341634B1 (ko) * 2018-11-28 2021-12-22 김훈 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
WO2020111835A1 (ko) * 2018-11-28 2020-06-04 김훈 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
CN109616116B (zh) * 2019-01-10 2023-02-03 上海言通网络科技有限公司 通话系统及其通话方法
CN109639444B (zh) * 2019-02-20 2021-06-18 腾讯科技(深圳)有限公司 消息处理方法、装置、电子设备及存储介质
KR102536372B1 (ko) * 2019-11-28 2023-05-26 김훈 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
CN110728133B (zh) * 2019-12-19 2020-05-05 北京海天瑞声科技股份有限公司 个性语料获取方法及个性语料获取装置
CN111522929A (zh) * 2020-04-22 2020-08-11 深圳创维-Rgb电子有限公司 一种开导减压数据处理方法、显示设备及存储介质
US11356792B2 (en) * 2020-06-24 2022-06-07 International Business Machines Corporation Selecting a primary source of text to speech based on posture

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100121808A1 (en) * 2008-11-11 2010-05-13 Kuhn Michael J Virtual game dealer based on artificial intelligence

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130007635A1 (en) * 2011-06-30 2013-01-03 Avaya Inc. Teleconferencing adjunct and user interface to support temporary topic-based exclusions of specific participants
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
US9269073B2 (en) * 2012-09-20 2016-02-23 Avaya Inc. Virtual agenda participant

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100121808A1 (en) * 2008-11-11 2010-05-13 Kuhn Michael J Virtual game dealer based on artificial intelligence

Also Published As

Publication number Publication date
CN105991847A (zh) 2016-10-05
CN105991847B (zh) 2020-11-20
KR20160100811A (ko) 2016-08-24

Similar Documents

Publication Publication Date Title
KR102420564B1 (ko) 정보 제공 방법 및 디바이스
US10468052B2 (en) Method and device for providing information
US10783872B2 (en) Integration of third party virtual assistants
US11004446B2 (en) Alias resolving intelligent assistant computing device
US11100384B2 (en) Intelligent device user interactions
US9053096B2 (en) Language translation based on speaker-related information
US11430439B2 (en) System and method for providing assistance in a live conversation
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US20180240459A1 (en) Method and system for automation of response selection and composition in dialog systems
US20130144619A1 (en) Enhanced voice conferencing
Lopatovska et al. User recommendations for intelligent personal assistants
KR20220140599A (ko) 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터
Warner Reduction
Bryant et al. Laughter and culture
Della Rosa et al. Adolescent patients’ responses to interpretations focused on endings in short-term psychoanalytic psychotherapy
Thompson et al. English why don’t you X as a formulaic expression
US20240096236A1 (en) System for reply generation
US20240021193A1 (en) Method of training a neural network
Rohmahwati et al. Violation of politeness maxims in the television series the big bang theory
JP2021149664A (ja) 出力装置、出力方法及び出力プログラム
Minker et al. Next-generation human-computer interfaces-towards intelligent, adaptive and proactive spoken language dialogue systmes
Singh Analysis of Currently Open and Closed-source Software for the Creation of an AI Personal Assistant
JP6790791B2 (ja) 音声対話装置および対話方法
Zellou et al. Linguistic analysis of human-computer interaction
Palaniappan An Enhancement For Voice Assistant Skills That Uses Natural Language Processing (NLP) Technique–A Research Proposal

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)