KR20210070213A - 음성 사용자 인터페이스 - Google Patents

음성 사용자 인터페이스 Download PDF

Info

Publication number
KR20210070213A
KR20210070213A KR1020200166059A KR20200166059A KR20210070213A KR 20210070213 A KR20210070213 A KR 20210070213A KR 1020200166059 A KR1020200166059 A KR 1020200166059A KR 20200166059 A KR20200166059 A KR 20200166059A KR 20210070213 A KR20210070213 A KR 20210070213A
Authority
KR
South Korea
Prior art keywords
conversation
user
parameter
threshold
voice
Prior art date
Application number
KR1020200166059A
Other languages
English (en)
Inventor
쿤 왕
수 판
위에위에 짱
린 딩
보 펑
얀팡 판
야즈 짜오
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2020/017706 priority Critical patent/WO2021112642A1/en
Priority to US17/112,053 priority patent/US11594224B2/en
Publication of KR20210070213A publication Critical patent/KR20210070213A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

적어도 하나의 인스트럭션을 저장하도록 구성된 메모리; 및 적어도 하나의 프로세서를 포함하는 전자 디바이스로서, 적어도 하나의 프로세서는, 적어도 하나의 인스트럭션을 실행함으로써: 적어도 하나의 사용자의 대화로부터 음성 데이터를 획득하고; 음성 데이터를 텍스트 데이터로 변환하고; 음성 데이터 및 텍스트 데이터 중 적어도 하나에 기초하여, 대화의 특성을 나타내기 위한 적어도 하나의 파라미터를 결정하고; 결정된 적어도 하나의 파라미터에 기초하여, 대화로의 개입을 트리거링하기 위한 조건을 조절하고; 조절된 조건이 충족될 때, 텍스트 데이터에 기초하여 피드백을 출력하도록 구성되는, 전자 디바이스가 제공될 수 있다.

Description

음성 사용자 인터페이스{VOICE USER INTERFACE}
본 개시는 음성 사용자 인터페이스 (voice user interface; VUI) 에 관한다. 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관한다.
모바일 스마트 단말과 클라우드 컴퓨팅의 빠른 발전으로, 인공지능의 물결로 인한 생활이 진화하고 있다. 지능적 음성 사용자 인터페이스 (voice user interface; VUI) 는 새로운 분야로서 빠르게 발전하고 있고, 사용자 경험, 언어학, 감정 모델링, 로직 구성 등에서 기존 사용자 인터페이스와는 다른 요구사항을 가진다. 지능적 음성 사용자 인터페이스는 음성 입력에 기초한 인터랙션 모드를 제공하고, 이를 통해 사용자는 음성으로 질의하고 질의에 대한 결과를 들을 수 있다. 전형적인 애플리케이션 시나리오는 음성 비서이다. 음성 비서는, 지능적 대화 및 실시간 질의응답을 통해 사용자를 도와 문제를 해결한다. 음성 비서는 사용자를 도와 다양한 문제들을 해결할 수 있다.
종래의 음성 인터랙션은, 인간이 능동적으로 입력을 제공하고, 기계는 수동적으로 해당 입력에 대한 답변을 제공하는 순환 모드로 동작한다. 음성 시스템은 오직 사용자 명령을 따를 수만 있다. 따라서, 이러한 수동적 메커니즘으로는 자연스러운 음성 인터랙션을 구현하기 어렵다. 예를 들어, 기계적인 피드백은 대화 시나리오의 요구사항을 충분히 고려하지 않아, 기계-사용자 인터랙션 중 기계는 낮은 EQ (Emotional Quotient) 를 가지는 것으로 보이고, 사용자 경험을 나쁘게 한다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계 학습을 활용한 요소 기술들로 구성된다.
기계 학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험 정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
본 개시의 일 측면에 따르면, 음성 인터랙션 방법, 장치, 및 컴퓨터 판독가능 저장 매체가 제공될 수 있다. 일 실시예에 따르면, 음성 인터랙션 장치는 사용자 대화에 능동적으로 참여할 수 있어 더 자연스러운 음성 인터랙션이 구현될 수 있다.
본 개시의 일 측면에 따른 음성 인터랙션 장치는 모니터링 모듈, 분석 모듈, 및 제어 모듈을 포함할 수 있다. 모니터링 모듈은 사용자 대화에서 음성 데이터 및 대화 파라미터를 모니터링하고, 상기 음성 데이터를 텍스트 데이터로 변환하도록 구성될 수 있다. 분석 모듈은 사용자 의도를 결정하기 위해 텍스트 데이터를 분석하도록 구성될 수 있다. 제어 모듈은 상기 사용자 의도에 기초하여 개입 필요가 있는 것으로 결정되고 상기 대화 파라미터에 기초하여 개입 시기 (時機) 에 도달한 것으로 결정될 때 상기 사용자 의도에 기초하여 결정된 정보를 사용자에게 제공하도록 구성될 수 있다.
일 실시예에서, 상기 대화 파라미터는 대화 중단 시간; 대화 교류 빈도; 상기 대화에 관여한 사람들의 수; 사용자 감정 파라미터; 및 사용자 특성 파라미터 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 상기 대화 파라미터는 대화 중단 시간 및/또는 대화 교류 빈도를 포함하고; 상기 대화 중단 시간이 대화 중단 시간 임계치보다 높을 때 및/또는 상기 대화 교류 빈도가 대화 교류 빈도 임계치보다 낮을 때, 상기 제어 모듈은 상기 개입 시기에 도달한 것으로 결정하도록 더 구성될 수 있다.
일 실시예에서, 상기 대화 파라미터는 상기 대화에 관여한 사람들의 수; 사용자 감정 파라미터; 또는 사용자 특성 파라미터를 포함하고; 상기 제어 모듈은, 상기 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 상기 대화 중단 시간 및/또는 상기 대화 교류 빈도를 조절하도록 더 구성될 수 있다.
일 실시예에서, 상기 분석 모듈은, 상기 음성 데이터 및 상기 텍스트 데이터에 기초하여, 상기 대화의 시나리오를 분류하도록 더 구성되고; 상기 제어 모듈은, 시나리오 분류 결과에 기초하여 상기 대화 중단 시간 임계치 및/또는 상기 대화 교류 빈도 임계치를 결정하고, 상기 대화에 관여한 사람들의 수, 상기 사용자 감정 파라미터, 또는 상기 사용자 특성 파라미터에 기초하여 상기 대화 중단 시간 임계치 및/또는 상기 대화 교류 빈도 임계치를 조절할 것인지 여부를, 상기 시나리오 분류 결과에 기초하여 결정하도록 더 구성될 수 있다.
일 실시예에서, 상기 분석 모듈은 상기 텍스트 데이터에 기초하여 대화 구조 및 주제 키워드의 고정성을 결정하고; 상기 음성 데이터의 파형에 기초하여 인터랙션 리듬을 결정하고; 및 상기 대화 구조, 상기 주제 키워드의 상기 고정성, 및 상기 인터랙션 리듬에 기초하여 상기 대화의 상기 시나리오를 분류하도록 구성될 수 있다.
일 실시예에서, 시나리오 분류는 담소 타입의 대화이고, 상기 제어 모듈은, 상기 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 상기 대화 중단 시간 및/또는 상기 대화 교류 빈도를 조절하는 것으로 결정하도록 구성될 수 있다.
일 실시예에서, 상기 시나리오 분류는 질답 회의 타입의 대화이고, 상기 제어 모듈은, 상기 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 상기 대화 중단 시간 및/또는 상기 대화 교류 빈도를 조절하지 않는 것으로 결정하도록 구성될 수 있다.
일 실시예에서, 상기 시나리오 분류는 고정 대화 프로그램 타입의 대화이고, 상기 제어 모듈은, 상기 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 상기 대화 중단 시간 및/또는 상기 대화 교류 빈도를 조절하지 않는 것으로 결정하도록 구성될 수 있다.
일 실시예에서, 상기 모니터링 모듈은, 상기 음성 데이터의 보이스프린트 특징에 기초하여 상기 사용자를 식별하고, 상기 음성 데이터 및 상기 텍스트 데이터를 상기 인식된 사용자와 매칭시키도록 더 구성될 수 있다.
일 실시예에서, 상기 모니터링 모듈, 상기 분석 모듈, 및 상기 제어 모듈은 단일 개체로 통합될 수 있다.
일 실시예에서, 상기 모니터링 모듈은 제 1 개체에 배치되고, 상기 분석 모듈 및 상기 제어 모듈은 클라우드에 배치될 수 있다.
일 실시예에서, 상기 모니터링 모듈 및 상기 분석 모듈은 상기 제 1 개체에 배치되고, 상기 제어 모듈은 상기 클라우드에 배치될 수 있다.
일 실시예에서, 상기 모니터링 모듈 및 상기 제어 모듈은 상기 제 1 개체에 배치되고, 상기 분석 모듈은 상기 클라우드에 배치될 수 있다.
본 개시의 일 측면에 따른 음성 인터랙션 방법은: 사용자 대화에서 음성 데이터 및 대화 파라미터를 모니터링하고, 상기 음성 데이터를 텍스트 데이터로 변환하는 단계; 사용자 의도를 결정하기 위해 텍스트 데이터를 분석하는 단계; 및 상기 사용자 의도에 기초하여 개입 필요가 있는 것으로 결정되고 상기 대화 파라미터에 기초하여 개입 시기 (時機) 에 도달한 것으로 결정될 때 상기 사용자 의도에 기초하여 결정된 정보를 사용자에게 제공하는 단계를 포함할 수 있다.
본 개시의 일 측면에 따르면 음성 인터랙션 방법을 컴퓨터에서 실행시키기 위한 컴퓨터 프로그램 프로덕트가 제공될 수 있다. 컴퓨터 프로그램 프로덕트는 컴퓨터 판독가능 매체에 저장될 수 있다.
도 1 은 일 실시예에 따른 음성 인터랙션 장치의 구조도이다.
도 2 는 일 실시예에 따른 음성 인터랙션의 예시적인 개략도이다.
도 3 은 일 실시예에 따른 음성 인터랙션 장치의 모듈들의 예시적인 개략도다.
도 4 는 일 실시예에 따른 음성 인터랙션 방법의 흐름도이다.
도 5 는 일 실시예에 따른 음성 인터랙션 프로세스의 예시적이고 개념적인 흐름도이다.
도 6 은 일 실시예에 따른 시나리오 분류의 개략도이다.
도 7 은 일 실시예에 따른 임계치에 대한 사람수의 효과의 개략도이다.
도 8 은 일 실시예에 따른 사용자 특징을 식별하는 것의 개략도이다.
도 9 는 일 실시예에 따른 능동적인 인터랙션을 위한 전략의 개략도이다.
도 10 는 일 실시예에 따른 능동적인 인터랙션을 위한 구조의 도면이다.
도 11 은 일 실시예에 따른 음성 활동 검출 (voice activity detection; VAD) 에서 음성 활동 분석의 개략도이다.
도 12 는 일 실시예에 따른 대화에서 개입 시기에 대한 결정 로직의 개략도이다.
도 13 은 일 실시예에 따른 장단기 메모리 (long short-term memory; LSTM) 네트워크-오토인코더의 특징 추출의 개략도이다.
도 14 는 일 실시예에 따른 의도 인식을 위한 컨볼루션 신경망 (convolutional neural networks; CNN) 모델의 개략도이다.
도 15 는 일 실시예에 따른, 능동적인 인터랙션을 수행할 것인지에 대한 결정의 개략도이다.
도 16 은 일 실시예에 따른 담소 타입의 능동적인 인터랙션의 제 1 개략도이다.
도 17 은 일 실시예에 따른 담소 타입의 능동적인 인터랙션의 제 2 개략도이다.
도 18 은 일 실시예에 따른 질의응답 회의 타입의 능동적인 인터랙션의 개략도이다.
도 19 는 일 실시예에 따른 고정 대화 프로그램 타입의 능동적인 인터랙션의 개략도이다.
도 20 은 일 실시예에 따른 스토리지-프로세서 구조를 포함하도록 구성된 음성 인터랙션 장치의 구조도이다.
도 21 은 일 실시예에 따른 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 실시예들은 다양한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 실시예들을 명확하게 설명하기 위해 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
용어는 다양한 실시예에 따른 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 여기에서 사용되는 용어는 단순히 그 용어의 명칭이 아닌, 그 용어가 가지는 의미와 여기에 기재된 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. "포함하다" 또는 "가지다" 등의 용어는 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 특히, 숫자들은 이해를 돕기 위한 예로서, 기재된 숫자들에 의해 실시예들이 한정되는 것으로 이해되지 말아야 한다.
"??부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
"제1", "제2" 등의 용어는 다양한 구성요소들을 서술하기 위해서 사용되나, 이 구성요소들이 해당 용어에 의해 제한되지 않음은 물론이다. "제1", "제2" 등의 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 "제1 구성요소"는 실시예의 기술적 사상 내에서 "제2 구성요소"일 수도 있음은 물론이다.
"적어도 하나의"와 같은 표현은, 구성요소들의 리스트 전체를 수식하고, 그 리스트의 구성요소들을 개별적으로 수식하지 않는다. 예를 들어, "A, B, 및 C 중 적어도 하나"는 오직 A, 오직 B, 오직 C, A와 B 모두, B와 C 모두, A와 C 모두, A와 B와 C 전체, 또는 그 조합을 가리킨다.
전자 디바이스는 스마트폰, 태블릿, 휴대폰, PDA (personal digital assistant), 미디어 플레이어, PMP (Portable Multimedia Player), 전자책 단말기, 디지털방송용 단말기, PC (Personal Computer), 노트북 (laptop), 마이크로 서버, GPS (global positioning system) 장치, 네비게이션, 키오스크, MP3 플레이어, 스마트 TV, 디지털 카메라 및 기타 모바일, 또는, 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 전자 디바이스는 엔드 유저 디바이스일 수 있다.
종래의 지능 음성 사용자 인터페이스 기술에는 많은 문제가 있다. 이에, 종래의 음성 비서를 예로 들어 종래의 지능 음성 사용자 인터페이스에 존재하는 기술적인 문제점을 설명하고자 한다. 당업자라면, 음성 비서를 예로 든 설명은 단지 예시에 불과하고, 보호 범위를 한정하고자 함이 아님을 깨달을 것이다.
종래의 음성 비서는 다수 사용자 시나리오와 자연스러운 인터랙션에 있어 많은 기술적인 문제점을 가진다.
예를 들어, 음성 비서에 대한 설명은 주로 단일 사용자 시나리오에서의 명령을 분석하는 것에 기초하고, 다수 사용자 시나리오의 대화 콘텐츠에서 자연스러운 대화 개입을 하는 것은 불가능하다.
예를 들어, 음성 비서의 인간-컴퓨터 인터랙션은, 인간의 "입력" 및 기계의 "피드백" 의 계속적인 순환 모드에서 동작한다. 즉, 음성 비서의 인간-컴퓨터 인터랙션은, 인간이 능동적으로 질의하면, 기계가 수동적으로 해당 질의에 답함으로써 이루어진다. 이러한 "수동적"인 매커니즘은, 자연스러운 음성 인터랙션을 달성할 수 없다.
예를 들어, 음성 인터랙션 비서의 기계적인 피드백은, 대화 시나리오의 요구 사항들을 충분히 고려하지 않을 수 있다. 기계의 지나치게 "적시의" 또는 "즉각적인" 피드백은 종종 사용자들의 생각과 교류를 단절시킨다. 즉, 인간으로 치자면, 인간-컴퓨터 인터랙션 프로세스에서 기계는 "EQ"가 너무 낮아 사용자로 하여금 열악한 사용자 경험을 경험하게 한다.
일 실시예에 따르면, 다수 사용자 음성 인식 기술은 보이스프린트 인식을 통해 구현될 수 있다. 보이스프린트는 음성의 지문으로 볼 수 있다. 보이스프린트는 각 개인의 고유한 특징이므로, 이를 통해 상이한 사람들의 음성을 효과적으로 구별할 수 있다. 보이스프린트 인식은 정적 검출 방법과 동적 검출 방법을 포함한다. 동적 검출 방법은 스펙토그램에 따라 화자의 음성의 기본 주파수 (fundamental frequency) 와 하모닉 주파수를 추출하고, 패턴 인식과 같은 매칭 방법을 이용하여 상이한 스펙토그램들 간의 유사성을 획득함으로써, 보이스프린트가 인식될 수 있다. 동적 검출 방법은 동적 검출의 다양한 원리들을 이용하고, 동시에, VAD, 노이즈 감소, 탈반향(dereverberation) 등과 같은 알고리즘을 이용하고, 기계학습모델, 또는 딥러닝모델을 도입하여, 보이스프린트 인식이 크게 향상될 수 있다.
웨이크업 (wake-up) 단어를 이용하는 음성 인터랙션 기술은 종래의 음성 비서 제품들에서 채택되어 이용된다. 일회성의 대화 디자인, 즉, 사용자가 웨이크업 단어를 말하여 음성 비서에게 질문을 입력하고, 그리고 음성 비서는 해당 질문을 인식하여 그에 대응하는 답변을 사용자에게 제공한다. 하지만, 이러한 일회성 대화의 인터랙션 모드에 따르면, 음성 비서는 문맥을 이해하기 어렵다. 불완전한 정보때문에, 음성 비서는 사용자의 의도를 인식하지 않을 수 있고, 응답하지 않거나, 부정확하게 사용자의 명령을 수행할 수 있고, "웨이크업할 수 없거나" 또는 "실수로 웨이크업"하는 문제가 발생할 수 있다. 게다가, 각 대화는 웨이크업 단어를 요구하고, 이는 대화의 흐름을 중단시키고 사용자의 인터랙티브 경험에 영향을 준다.
종래의 음성 비서는 일반적으로 단일 사용자에게 타겟팅되므로, 다수 사용자 간 대화 시나리오에서 제대로 동작하기 어렵다. 다수 사용자 대화 시나리오에 참여하는 종래의 음성 비서는 기껏해야 사용자의 요구 의도를 검출하고, 그 요구가 검출될 때 명령을 수행하는, 임무-기반 인터랙션 (task-based interaction) 을 수행할 뿐, 다수 사용자의 담소 시나리오에서는 자연스러운 인터랙션을 기대하기 어렵다.
일 실시예에 따르면, 사용자들의 담소 중, 적절한 개입 시기 (時機)를 고려할 수 있고, 이는 담소가 어떤 문제를 만나거나 침묵이 흘러 계속될 수 없을 때, 사용자에 대한 방해를 피할 수 있다.
실시예들은, 다수 사용자 대화에서 종래의 지능적 음성 시스템의 한계와, 인간-기계 인터랙션의 자연스러운 구현에 있어서의 문제를 조준하여, 지능적인 다수 사용자 음성 인터랙션 기술 방안을 제안한다. 일 실시예에 따르면, 다수 사용자 음성 인식에 따라, 다수 사용자 대화 시나리오가 커버될 수 있다. 시맨틱 이해 및 감정 인식이 사용자 대화에 대해 수행되어 사용자의 요구 의도가 분석될 수 있다. 사용자 교류의 중단 시간 및 교류 빈도와 같은 파라미터가, 담소 중 검출되어 대화 시나리오에서 기계의 개입 시기가 결정될 수 있다. 게다가, 실시예들은 또한 능동적인 웨이크업을 구현하여, 기계의 개입 시기 결정의 결과에 기초하여 기계가 사용자 대화에 참여하고, 사용자 대화 콘텐츠의 요구 의도에 연관된 사용자 대화를 촉진시키기 위해, 대응하는 피드백 콘텐츠를 제공할 수 있고, 이는 더 자연스러운 인간-기계 인터랙션에 기여할 수 있다.
본 개시에서 "피드백"은 사용자의 대화에 기초하여 기계, 즉, 음성 인터랙션 장치가 제공하는 응답을 가리킨다. 사용자들 간의 대화 중 사용자가 무언가를 궁금해하는 것이 검출되는 경우, 검출된 사용자의 암시적인 또는 명시적인 의문에 기초하여 피드백이 사용자에게 제공될 수 있다. 사용자의 의문에 기초하여 제공되는 피드백에 대해서는, 본 개시에서 담소 타입의 대화에 관련된 실시예와 함께 설명될 것이다.
사용자와 음성 인터랙션 장치 간의 대화 중, 음성 인터랙션 장치의 질문에 대한 사용자의 답변이 검출되는 경우, 검출된 사용자의 답변에 기초하여 피드백이 사용자에게 제공될 수 있으며, 사용자의 답변에 기초하여 제공되는 피드백에 대해서는, 본 개시에서 질의응답 타입의 대화에 관련된 실시예와 함께 설명될 것이다.
사용자와 음성 인터랙션 장치가 소정의 규칙에 따른 프로그램, 예를 들어, 게임을 진행하는 경우, 사용자의 프로그램 참여에 기초하여 피드백이 사용자에게 제공될 수 있다. 사용자의 프로그램 참여에 기초하여 제공되는 피드백에 대해서는, 본 개시에서 고정 대화 프로그램 타입의 대화에 관련된 실시예와 함께 설명될 것이다.
피드백은 다양한 형태로 출력될 수 있다. 본 개시의 실시예들은 피드백이 음성 인터랙션 장치에 의해 오디오로서 출력되는 것으로 설명되었으나, 이에 제한되지 않는다. 예를 들어, 피드백은 시각적으로 디스플레이될 수도 있다. 본 개시의 실시예들은 사용자의 대화가 오디오로서 음성 인터랙션 장치에서 수신되는 것으로 설명되었으나, 이에 제한되지 않는다. 예를 들어, 본 개시는 사용자의 대화가 텍스트로서 음성 인터랙션 장치에서 수신되는 실시예를 배제하지 않는다.
도 1 은 일 실시예에 따른 음성 인터랙션 장치의 구조도이다.
도 1 에 도시된 바와 같이, 음성 인터랙션 장치는 모니터링 모듈 (101), 분석 모듈 (102), 및 제어 모듈 (103)을 포함할 수 있으나, 이에 제한되지 않으며, 음성 인터랙션 장치는 전술된 모듈들보다 더 많은 모듈들 (유닛들) 을 포함하거나 더 적은 모듈들을 포함할 수도 있다
모니터링 모듈 (101) 은, 사용자 대화에서 음성 데이터 및 대화 파라미터를 모니터링하고, 음성 데이터를 텍스트 데이터로 변환하도록 구성될 수 있다.
분석 모듈 (102) 은, 사용자 의도를 결정하기 위해 텍스트 데이터를 분석하도록 구성될 수 있다.
제어 모듈 (103) 은, 사용자 의도에 기초하여 개입 필요가 있는 것으로 결정되고 대화 파라미터에 기초하여 개입 시기 (時機) 에 도달한 것으로 결정될 때 사용자 의도에 기초하여 결정된 정보를 사용자에게 제공하도록 구성될 수 있다. 개입 시기는, 음성 인터랙션 장치가 사용자의 대화에 능동적으로 개입하기에 적절한 때를 가리킨다.
일 실시예에 따르면, 대화에 능동적으로 개입하기 위한 적절한 개입 시기가 결정될 수 있으므로, 사용자의 의도를 이해한 것에 기초하여, 사용자와 기계 간의 자연스럽고 능동적인 인터랙션이 구현될 수 있다.
여기서, 대화 파라미터는 대화에 연관된 사용자 파라미터(예를 들어, 사용자의 수, 사용자 특성, 사용자 감정, 등) 및 대화의 속성의 파라미터 (예를 들어, 대화 중단 시간, 대화 교류 빈도, 등) 를 포함할 수 있다. 바람직하게는, 사용자 대화는 다수 사용자들 (적어도 두 명의 사용자들) 간의 대화일 수 있다. 일 실시예에서, 대화 파라미터는: 대화 중단 시간; 대화 교류 빈도; 대화에 관여한 사람들의 수; 사용자 감정 파라미터; 및 사용자 특성 파라미터 중 적어도 하나를 포함할 수 있으나, 이에 제한되지 않으며, 대화 파라미터는 전술된 파라미터들 외에 다른 파라미터를 포함할 수도 있다. 대화 중단 시간은 사용자 대화 중 아무도 말하지 않는 시간일 수 있다. 즉, 대화 중단 시간은, 사용자의 음성이 검출되지 않는 시간일 수 있다. 예를 들어, 사용자의 음성이 검출된 최종 순간부터 시간 계산을 시작하고, 사용자의 음성이 검출되는 다음 순간에 시간 계산을 종료함으로써, 시간 계산 결과로서 대화 중단 시간이 계산될 수 있다. 대화 교류 빈도는 미리 결정된 시간 동안 발언자가 바뀌는 것에 기초하여 계산될 수 있다. 예를 들면, 대화 교류 빈도는 사용자 대화 중 미리 결정된 시간 내에 화자가 바뀌는 빈도를 의미할 수 있다. 즉, 대화 교류 빈도는 사용자 대화 중 미리 결정된 시간 내에 화자가 바뀌는 횟수를 의미할 수 있다. 따라서, 미리 결정된 시간이 1분이고, 30초 동안 제1 사용자가 발언한 후 다음 30초 동안 제2 사용자가 발언한 경우, 대화 교류 빈도는 1회/분(min) 로 계산될 수 있다. 또 다른 예를 들면, 대화 교류 빈도는 미리 결정된 시간 동안 대화가 교류된 횟수를 의미할 수 있다. 따라서, 미리 결정된 시간이 1분이고, 30초 동안 제1 사용자가 발언한 후 다음 30초 동안 제2 사용자가 발언한 경우, 대화 교류 빈도는 2회/분(min) 로 계산될 수 있다. 대화 교류 빈도는 대화 교류 빈도는 대화 빈도 또는 교류 빈도로 지칭될 수 있다. 대화에 관여한 사람들의 수는, 사용자 대화에 참여한 사용자들의 수이다. 사용자 감정 파라미터는 사용자가 행복함, 화남, 무서움, 또는 슬픔, 등을 나타낼 수 있다. 사용자 특성 파라미터는 사용자가 수다적임, 수다적이지 않음, 과묵함, 말이 빠름, 또는 말이 느림, 등을 나타낼 수 있다.
사용자 의도에 기초하여 결정되는 정보는, 음성, 텍스트, 사진, 비디오, 등의 타입의 프롬프트 정보로서 제공될 수 있고, 미리 설정된 대화와 같은 비-프롬프트 정보로서 제공될 수도 있다.
일 실시예에서, 대화 파라미터는 대화 중단 시간 및/또는 대화 교류 빈도를 포함할 수 있다. 대화 중단 시간이 대화 중단 시간 임계치보다 높을 때 및/또는 대화 교류 빈도가 대화 교류 빈도 임계치보다 낮을 때, 제어 모듈 (103) 은 개입 시기에 도달한 것으로 결정하도록 구성될 수 있다.
예를 들어, 대화 파라미터는 대화 중단 시간 또는 대화 교류 빈도를 포함할 수 있다. 대화 중단 시간이 미리 결정된 대화 중단 시간 임계치보다 높을 때 또는 대화 교류 빈도가 미리 결정된 대화 교류 빈도 임계치보다 낮을 때, 제어 모듈 (103) 은 개입 시기에 도달한 것으로 결정하도록 구성될 수 있다.
다른 예를 들면, 대화 파라미터는 대화 중단 시간 및 대화 교류 빈도를 포함할 수 있다. 대화 중단 시간이 미리 결정된 대화 중단 시간 임계치보다 높을 때 및 대화 교류 빈도가 미리 결정된 대화 교류 빈도 임계치보다 낮을 때, 제어 모듈 (103) 은 개입 시기에 도달한 것으로 결정하도록 구성될 수 있다.
일 실시예에서, 대화 파라미터는 대화에 관여한 사람들의 수; 사용자 감정 파라미터; 또는 사용자 특성 파라미터를 포함할 수 있다. 제어 모듈 (103) 은, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하도록 더 구성될 수 있다.
일 실시예에서, 제어 모듈은 대화에 관여한 사람들의 수가 증가할 때, 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
일 실시예에서, 제어 모듈은, 대화에 관여한 사람들의 수가 감소할 때, 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 감정 파라미터가 사용자가 행복함을 나타낼 때, 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 감정 파라미터가 사용자가 화남을 나타낼 때, 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 감정 파라미터가 사용자가 무서워함을 나타낼 때, 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 감정 파라미터가 사용자가 슬픔을 나타낼 때, 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 특성 파라미터가 사용자가 수다적임을 나타낼 때, 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 특성 파라미터가 사용자가 수다적이지 않음을 나타낼 때, 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 특성 파라미터가 사용자가 빨리 말함을 나타낼 때, 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
일 실시예에서, 제어 모듈은, 사용자 특성 파라미터가 사용자가 느리게 말함을 나타낼 때, 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
일 실시예에서, 제어 모듈은, 대화에 관여한 사람들의 수가 기설정된 사람수보다 클 때, 대화 중단 시간 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정하고; 대화에 관여한 사람들의 수가 기설정된 사람수보다 클 때, 대화 교류 빈도 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다.
일 실시예에서, 제어 모듈은, 사용자 감정 파라미터의 레벨(강도)이 강렬(high)일 때, 대화 중단 시간 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다.
일 실시예에서, 제어 모듈은, 사용자 감정 파라미터의 레벨이 강렬일 때, 대화 교류 빈도 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다.
일 실시예에서, 제어 모듈은, 대화에 관여한 사람들의 수가 기설정된 사람수 이하이고 사용자 감정 파라미터가 정상(normal)일 때, 사용자 특성 파라미터, 사용자 감정 파라미터, 및 대화에 관여한 사람들의 수의 가중치를 계산하고, 가중치에 기초하여 대화 교류 빈도 임계치를 조절할 수 있다.
일 실시예에서, 제어 모듈은, 대화에 관여한 사람들의 수가 기설정된 사람수 이하이고 사용자 감정 파라미터가 정상일 때, 사용자 특성 파라미터, 사용자 감정 파라미터, 및 대화에 관여한 사람들의 수의 가중치를 계산하고, 가중치에 기초하여 대화 중단 시간 임계치를 조절할 수 있다.
실시예들은 나아가, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 또는 대화 교류 빈도를 조절할 수 있고, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여 개입 시기가 조절될 수 있어, 능동적인 개입이 사용자 특징에 더 부합할 수 있다.
일 실시예에서, 분석 모듈 (102) 은, 음성 데이터 및 텍스트 데이터에 기초하여, 대화의 시나리오를 분류하도록 더 구성될 수 있다. 제어 모듈 (103) 은, 시나리오 분류 결과에 기초하여 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치를 결정하고, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치를 조절할 것인지 여부를, 시나리오 분류 결과에 기초하여 결정하도록 더 구성될 수 있다.
일 실시예에서, 분석 모듈 (102) 은 텍스트 데이터에 기초하여 대화 구조 및 주제 키워드의 고정성 (즉, 대화의 주제가 변하는지 여부) 을 결정하고; 음성 데이터의 파형에 기초하여 인터랙션 리듬을 결정하고; 및 대화 구조, 주제 키워드의 고정성, 및 인터랙션 리듬에 기초하여 대화의 시나리오를 분류하도록 구성될 수 있다.
일 실시예에서, 시나리오 분류는 담소 타입의 대화이고, 제어 모듈 (103) 은, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하는 것으로 결정하도록 구성되고; 또는
일 실시예에서, 시나리오 분류는 질답 회의 타입의 대화이고, 제어 모듈 (103) 은, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하지 않는 것으로 결정하도록 구성되고; 또는
일 실시예에서, 시나리오 분류는 고정 대화 프로그램 타입의 대화이고, 제어 모듈 (103) 은, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하지 않는 것으로 결정하도록 구성될 수 있다.
일 실시예에서, 모니터링 모듈 (101) 은, 음성 데이터의 보이스프린트 특징에 기초하여 사용자를 식별하고, 음성 데이터 및 텍스트 데이터를 식별된 사용자와 매칭시키도록 더 구성될 수 있다.
실시예들은 다수 사용자 대화의 시나리오 특성들을 분석 및 요약하고; 기존의 다수 사용자 대화 시나리오를 3개의 메인 시나리오들, 즉, 담소 타입, 질의응답 회의 타입, 및 고정 대화 프로그램 타입으로, 대화 구조, 인터랙션 리듬, 및 장거리 대화 및 단일-라운드 대화에서 대화 주제의 특징 표현 결과에 기초하여 분류하고; 및 3개의 카테고리들의 시나리오 특징들을 추출 및 요약할 수 있다. 다수-사용자 대화 시나리오를 분석할 때, 3개의 특징들이 통합되어, 다수-사용자 대화 시나리오가 속하는 카테고리를 결정할 수 있다. 더욱이, 실시예들은, 음성 인터랙션의 운행 모드를 더 정의하여, 상이한 애플리케이션 시나리오들에 더 잘 적응하는 것을 보증할 수 있다. 상이한 모드들에서, 대화 콘텐트는 모니터링 및 기록될 수 있고, 피드백 콘텐트의 형식 및 개입 시간의 결정 로직은 상이할 수 있어, 시나리오 요구 사항에 더 부합할 수 있다.
일 실시예에서, 모니터링 모듈 (101), 분석 모듈 (102), 및 제어 모듈 (103) 은 단일 개체로 통합되고; 또는 모니터링 모듈 (101) 은 제 1 개체에 배치되고, 분석 모듈 (102) 및 제어 모듈 (103) 은 클라우드에 배치되고; 또는 모니터링 모듈 (101) 및 분석 모듈 (102) 은 제 1 개체에 배치되고, 제어 모듈 (103) 은 클라우드에 배치되고; 또는 모니터링 모듈 (101) 및 제어 모듈 (103) 은 제 1 개체에 배치되고, 분석 모듈 (102) 은 클라우드에 배치될 수 있다.
예1에서, 모니터링 모듈 (101), 분석 모듈 (102), 및 제어 모듈 (103) 은 스마트스피커, 스마트 TV, 또는 스마트폰과 같은 스마트 디바이스에 통합될 수 있다.
예2에서, 모니터링 모듈 (101) 은 스마트스피커, 스마트 TV, 또는 스마트폰과 같은 스마트 디바이스에 배치되고, 분석 모듈 (102) 및 제어 모듈 (103) 은 스마트 디바이스에 의해 액세스 가능한 클라우드에 배치될 수 있다.
예3에서, 모니터링 모듈 (101) 및 분석 모듈 (102) 은 스마트스피커, 스마트 TV, 또는 스마트폰과 같은 스마트 디바이스에 배치되고, 제어 모듈 (103) 은 스마트 디바이스에 의해 액세스 가능한 클라우드에 배치될 수 있다.
예4에서, 모니터링 모듈 (101) 및 제어 모듈 (103) 은 스마트스피커, 스마트 TV, 또는 스마트폰과 같은 스마트 디바이스에 배치되고, 분석 모듈 (102) 은 스마트 디바이스에 의해 액세스 가능한 클라우드에 배치될 수 있다.
모니터링 모듈 (101), 분석 모듈 (102), 및 제어 모듈 (103) 의 구체적인 배치 방식은 구체적으로 위에 설명된다. 당업자라면, 이러한 설명은 오직 예시에 불과하고, 실시예들의 보호 범위를 한정하고자 함이 아님을 깨달을 것이다.
실시예들에 따라, 음성 인터랙션 장치는 여기에서 설명된 것들보다 더 많거나 더 적은 유닛들(모듈들)을 포함할 수 있다. 음성 인터랙션 장치의 유닛들에 대한 명명은, 음성 인터랙션 장치에서 수행되는 동작들을 구별하여(distinctively) 설명하기 위한 것이므로, 특정 동작이 반드시 특정 유닛에서 수행되는 것으로 이해되지 말아야 한다. 예를 들어, 음성 인터랙션 장치의 특정 유닛에서 수행되는 것으로 묘사된 동작이 다른 유닛에서 수행될 수 있고, 음성 인터랙션 장치의 하나의 유닛에서 수행되는 것으로 묘사된 동작이 복수의 유닛들에서 수행될 수 있고, 음성 인터랙션 장치의 복수의 유닛들 간의 상호적 처리 (interactive processing) 에 의해 수행되는 것으로 묘사된 동작이 하나의 유닛에 의해 수행될 수도 있다. 나아가, 음성 인터랙션 장치에서 수행되는 것으로 묘사된 동작이 다른 디바이스에서 수행되거나, 다른 디바이스의 도움을 받아 수행될 수도 있다.
음성 인터랙션 장치는 메모리 (스토리지) 및 프로세서를 포함할 수 있다. 음성 인터랙션 장치의 소프트웨어 모듈들, 예를 들어, 프로그램 모듈들은 인스트럭션들의 집합으로서 메모리에 저장될 수 있고, 인스트럭션들이 프로세서에 의해 실행됨으로써 대응하는 기능들이 수행될 수 있다.
도 2 는 일 실시예에 따른 음성 인터랙션의 예시적인 개략도이다. 도 3 은 일 실시예에 따른 음성 인터랙션 장치의 모듈들의 예시적인 개략도다.
도 2 에서, 음성 인터랙션 장치는 모니터링 모듈, 분석 모듈, 제어 모듈, 및 스토리지 모듈을 포함할 수 있으나, 이에 제한되지 않는다.
실시예들에 따라, 음성 인터랙션 장치의 각각의 전술된 유닛(모듈)은 하위 유닛(하위 모듈)을 포함할 수 있다. 모듈의 하위 유닛들은 여기에서 설명되는 것들보다 더 많거나 더 적을 수 있다. 하위 유닛들에 대한 명명 또한 음성 인터랙션 장치의 모듈들에 대한 명명과 마찬가지로, 음성 인터랙션 장치에서 수행되는 동작들을 구별하여 설명하기 위한 것이므로, 특정 동작이 반드시 특정 하위 유닛에서 수행되는 것으로 이해되지 말아야 한다. 모듈과 하위 유닛은 서로 계층(hierarchy) 관계에 있거나, 계층 관계에 있지 않을 수 있다.
모니터링 모듈은 자동 음성 인식 (automatic speech recognition; ASR) 유닛 및 보이스프린트 인식 유닛을 포함할 수 있다. ASR 유닛은 사용자 대화를 시작부터 끝까지 모니터링하고, 모니터링된 사용자 음성 데이터를 텍스트 데이터로 변환하고, 다른 모듈에 의한 후속 호출 및 분석을 위해 텍스트 데이터를 저장하고, 보이스프린트 인식 유닛은 사용자의 음성 특징을 인식할 수 있다.
분석 모듈은 의도 분석 유닛 및 다수-사용자 식별 유닛을 포함할 수 있다. 다수-사용자 식별 유닛은, 사용자 태깅 유닛으로 지칭될 수도 있다. 즉, 사용자를 식별하는 것은, 사용자를 어떤 태그 (예: 특성에 연관된 태그)로 태깅하는 것일 수 있다. 의도 분석 유닛은 시맨틱 이해 및 의도 분석을 사용자의 텍스트 데이터에 대해 수행하고, 현재 상태에서 사용자에 의해 요구되는 의도를 분석하고; 다수-사용자 식별 유닛은, 보이스프린트 인식 유닛이 보이스프린트 인식 기술에 기초하여 사용자를 검출할 때, 사용자들의 수, 성별, 나이대, 및 대응하는 감정 특징 등을, 보이스프린트 특성에 기초하여 식별할 수 있다. 이 경우, 다수-사용자 식별 유닛은 사용자의 각 음성의 추출된 특징을 이용하여 하나 이상의 모델을 트레이닝할 수 있고, 트레이닝된 모델은 모델 라이브러리에 저장될 수 있다. 이후, 현재 수신된 음성에서 특징을 추출하고, 추출된 특징을 모델 라이브러리에 저장된 모델에 입력함으로써 현재 음성의 화자가 누구인지가 결정될 수 있다.
제어 모듈은 의도 분석 유닛, 시기 (時機) 결정 유닛, 및 출력 유닛을 포함할 수 있다. 의도 결정 유닛은, 의도 분석 유닛의 출력 결과에 따라, 현재 대화 내용 중 지능적 음성 비서가 답할 수 있는 정보가 포함되어 있는지를 결정하도록 구성될 수 있고, 해당 정보는 조작 정보, 지식 검색, 등을 포함할 수 있으나, 이에 제한되지 않는다. 시기 결정 유닛은, 다수-사용자 대화의 시나리오를 결정하고, 사용자들 간 대화 빈도의 변화 및 음성 대화 중단 시간의 길이에 따라, 다수-사용자 대화 시나리오의 상태를 결정하도록 구성될 수 있다. 출력 유닛은 특징 분석 결과를 획득한 후 작업을 수행할 것인지를 결정하고, 상황에 따라 출력될 콘텐트를 선택하고, 선택된 콘텐트를 출력할 수 있다. 출력 유닛은 출력할 시기에 도달할 때까지 기다리고, 출력 시기가 왔을 때, 선택된 콘텐트를 출력할 수 있다.
스토리지 모듈은 내부 스토리지 및 외부 스토리지를 포함할 수 있다. 내부 스토리지는 소스 명령, 데이터베이스, 과거 음성 정보, 및 분석 결과와 같은, 음성 인터랙션 장치에게 필요한 데이터가 언제든 다른 모듈에 의해 호출될 수 있도록, 데이터를 조직 및 저장할 수 있다; 외부 스토리지는 외부 클라우드 서버로서 구현될 수 있고, 외부 클라우드 서버는 사용자 의도에 대한 대응하는 피드백 콘텐트를 제공할 수 있다.
일 실시예에서, 사용자로부터의 명시적인 명령 없이도, 시나리오의 대화에 능동적으로 개입하기 위한 시기 및 다수-사용자 의도 피드백을 포함하는 두 측면으로부터, 대화에 능동적으로 개입하기 위한 조건이 정의될 수 있다. 이 경우, 시스템에서 자연스럽고 능동적인 인터랙션을 구현하기 위해, 미리 설정된 행동 모드에 따라 대화에 능동적으로 개입하기 위한 시기를 결정할 수 있다.
바람직하게는, 일 실시예에 따른 음성 인터랙션 장치는 세션-지향된 (Session-Oriented) 프레임워크에 기초하여 구현될 수 있다.
요약하면, 실시예들은 세션-지향된 프레임워크에 기초하여 다수-사용자 대화에서의 지능적인 음성 능동적 인터랙션을 위한 기술적 방안을 개시하고, 음성 인터랙션 장치는 처음부터 끝까지 다수-사용자 대화를 모니터링할 수 있고, 적절한 시기를 선택하여 능동적인 인터랙션, 예를 들어, 사용자들 간 대화에 개입할 수 있다. 음성 인터랙션 장치의 모니터링 모듈은 사용자 대화를 끊임없이 모니터링할 수 있다. 음성 텍스트 변환 유닛은 음성 정보를 텍스트로 변환할 수 있고, 시스템 호출 및 분석을 위해 변환된 텍스트를 저장할 수 있고; 보이스프린트 인식 유닛은, 사용자의 음성 특징을 인식한 후 사용자를 식별할 수 있고, 제공될 콘텐트를 사용자에 매칭할 수 있다. 음성 인터랙션 장치의 분석 모듈은 시맨틱 인식 유닛, 의도 분석 유닛, 및 다수-사용자 식별 유닛을 포함할 수 있다. 사용자의 음성 정보를 이해한 후, 의도 분석 유닛은 현재 상태에서 사용자에 의해 요구되는 의도를 분석하고, 분석된 의도에 대응하는 피드백 콘텐트를 검색할 수 있다. 다수-사용자 식별 유닛은, 사용자가 보이스프린트 인식을 통해 검출될 때, 사용자들의 수, 성별, 나이대, 및 대응하는 감정 특성 등을 보이스프린트 특성에 기초하여 식별할 수 있다. 사용자 간 대화를 처음부터 끝까지 모니터링함으로써, 사용자의 각 음성으로부터 추출된 특징을 이용하여 하나 이상의 모델을 트레이닝할 수 있고, 트레이닝된 모델은 모델 라이브러리에 저장될 수 있다. 그리고, 현재 수신된 음성으로부터 추출된 특징을 모델 라이브러리의 모델에 입력하여 비교함으로써, 현재 음성의 화자가 누구인지 결정될 수 있다. 음성 인터랙션 장치의 제어 모듈은 의도 분석 유닛, 시기 결정 유닛, 및 출력 유닛을 포함할 수 있다. 의도 결정 유닛은, 시맨틱 분석의 결과에 따라, 현재 대화 내용 중 지능적 음성 비서가 도울 수 있는 정보가 포함되어 있는지를 결정하도록 구성될 수 있고, 해당 정보는 조작 정보, 지식 포인트 검색, 등을 포함할 수 있다. 시기 결정 유닛은, 다수-사용자 대화의 시나리오를 결정하고, 사용자들 간 대화 빈도의 변화 및 음성 대화 중단 시간의 길이에 따라, 다수-사용자 대화 시나리오의 상태나 모드를 결정하도록 구성될 수 있다. 출력 유닛은 상황에 따라 호출될 콘텐트를 선택하고, 콘텐트를 출력하거나 출력할 때까지 계속 기다리다가, 개입 시기에 도달했을 때 콘텐트를 출력할 수 있다.
일 실시예에서, 대화 구조, 인터랙션 리듬 및 대화 고정성에 따라, 다수-사용자 시나리오는 복수의 모드로 분류될 수 있다. 예를 들어, 다수-사용자 시나리오는 3개의 메인 카테고리들: 담소 타입, 질의응답 회의 타입, 및 고정 대화 프로그램 타입으로 분류될 수 있으나, 이에 제한되지 않는다. 다수-사용자 식별은 GMM-UBM (Gaussian Mixture Model-Universal Background Model) 보이스프린트 인식을 이용하여 구현될 수 있다. 나아가, 다수-사용자 식별은, 다양한 기술들, 예를 들어, 이미지 정보 획득, 안면 인식, 입 움직임, 음향 포지셔닝, 등을 더 결합하여 실현될 수 있다.
일 실시예에서, 사용자에 대해 음성 분석이 수행된 후, 최종적으로 해당 사용자의 의도가 신경망 (TextCNN) 을 이용하여 획득될 수 있다. 나아가, 다른 다양한 방법들, 예를 들어, 머신 러닝, 규칙 판단, 퍼지 매칭이 사용자의 의도를 획득하기 위해 이용될 수 있다. 게다가, 다수-사용자 대화 시나리오에서 능동적인 개입 시기의 결정은, 능동적인 개입 시기를 결정하기 위해, 사용자들 간 대화의 중단 시간을 검출하고, 사용자들 간 대화의 빈도의 변화, 대화 시나리오의 감정 톤, 미리 설정된 프로그램의 로직 합성을 결합하는 것을 포함하지만, 이에 제한되지 않는다. 일 실시예에서, 현재 대화의 시나리오는 기계에 의해 능동적으로 결정될 수 있고, 해당 시나리오에 대응하는 디바이스 행동 모드 또는 대화 모드가 미리 결정될 수 있다. 대화 모드 또는 행동 모드는 생활 모드, 학습 모드, 게임모드, 등을 포함할 수 있으나, 이에 제한되지 않는다. 일 실시예에서, 지능적 디바이스에 의해 대화에 개입할 시기를 결정하기 위한 전략 (기본 근거, 시기 결정을 위한 기초 규칙, 시기 조절을 포함함) 과, 대응하는 모드의 피드백 콘텐트의 형식을 결정하는 전략이 특정될 수 있다.
일 실시예에서, 다수-사용자 대화에서 대화 빈도 및 중단 시간을 검출하기 위해 VAD 기술을 이용하는 것이 바람직할 수 있다. 음성 활동 검출은, 에너지 및 제로-크로싱 비율에 기초하여 수행될 수 있다. 다수-사용자 대화에서 중단 시간 및 대화 빈도는 다양한 방법들, 예를 들어, 주파수 영역 분석, 캡스트럼 (cepstrum) 분석, 하모닉 분석, 장시간 정보, 등을 이용하여 검출될 수 있다. 게다가, 일 실시예에서, 시나리오마다 개입 시기를 결정하고, 사용자 의도를 충족하는 요구를 식별하기 위해, 머신 러닝 알고리즘을 통해 능동적인 개입 시기의 감독 학습을 실현할 수 있다. 선택적으로, 다양한 기술들, 예를 들어, 딥러닝, 규칙 판단, 및 퍼지 매칭 또한 이용될 수 있다.
도 4 는 일 실시예에 따른 음성 인터랙션 방법의 흐름도이다.
도 4 에 도시된 바와 같이, 방법은 401, 402, 및 403 동작들을 포함할 수 있으나, 이에 제한되지 않으며, 이보다 더 많은 동작들을 포함하거나, 더 적은 동작들을 포함할 수 있으며, 각 동작은 복수의 하위-동작들로 구분되거나, 하나의 상위-동작으로 통합될 수 있다.
401 동작에서, 사용자 대화에서 음성 데이터 및 대화 파라미터를 모니터링할 수 있고, 보이스 데이터를 텍스트 데이터로 변환될 수 있다.
402 동작에서, 음성 인터랙션 장치는 텍스트 데이터를 분석하여 사용자 의도를 결정할 수 있다.
403 동작에서, 텍스트 데이터로부터 분석된 사용자 의도에 기초하여 개입 필요가 있는 것으로 결정되고, 대화 파라미터에 기초하여 개입 시기 (時機) 에 도달한 것으로 결정될 때, 사용자 의도에 기초하여 결정된 정보, 예를 들어, 사용자의 질의에 대한 답변이 사용자에게 제공될 수 있다.
일 실시예에서, 대화 파라미터는: 대화 중단 시간; 대화 교류 빈도; 대화에 관여한 사람들의 수; 사용자 감정 파라미터; 및 사용자 특성 파라미터 중 적어도 하나를 포함할 수 있으나, 이에 제한되지 않는다.
일 실시예에서, 대화 파라미터는 대화 중단 시간 및/또는 대화 교류 빈도를 포함할 수 있다. 대화 중단 시간 및/또는 대화 교류 빈도는, 음성 인터랙션 장치가 사용자의 대화에 개입하기 위한 조건일 수 있다. 예를 들어, 대화 중단 시간이 대화 중단 시간 임계치보다 높을 때 및/또는 대화 교류 빈도가 대화 교류 빈도 임계치보다 낮을 때, 개입 시기에 도달한 것으로 결정될 수 있다. 예를 들어, 대화 중단 시간이 대화 중단 시간 임계치보다 낮을 때 및/또는 대화 교류 빈도가 대화 교류 빈도 임계치보다 높을 때, 개입 시기에 도달한 것으로 결정될 수 있다. 개입 시기에 도달한 것으로 결정되면, 음성 인터랙션 장치는 사용자 간 대화에 개입할 수 있다. 예를 들어, 음성 인터랙션 장치는 사용자 간 대화 중 인식된 사용자의 의도에 대응하는 답변 또는 피드백을, 해당 사용자에게 제공할 수 있다.
일 실시예에서, 대화 파라미터는 대화에 관여한 사람들의 수; 사용자 감정 파라미터; 또는 사용자 특성 파라미터를 포함할 수 있다. 방법은: 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하는 동작을 더 포함할 수 있다.
일 실시예에서, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도가 조절될 수 있다.
예를 들어, 대화에 관여한 사람들의 수가 증가할 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
예를 들어, 대화에 관여한 사람들의 수가 감소할 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
예를 들어, 사용자 감정 파라미터가 사용자가 행복함을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
예를 들어, 사용자 감정 파라미터가 사용자가 화남을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
예를 들어, 사용자 감정 파라미터가 사용자가 무서워함을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
예를 들어, 사용자 감정 파라미터가 사용자가 슬픔을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
예를 들어, 사용자 특성 파라미터가 사용자가 수다적임을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
예를 들어, 사용자 특성 파라미터가 사용자가 수다적이지 않음을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
예를 들어, 사용자 특성 파라미터가 사용자가 빨리 말함을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 증가시키고 대화 중단 시간 임계치를 감소시킬 수 있다.
예를 들어, 사용자 특성 파라미터가 사용자가 느리게 말함을 나타낼 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를 감소시키고 대화 중단 시간 임계치를 증가시킬 수 있다.
예를 들어, 대화에 관여한 사람들의 수가 기설정된 사람수보다 클 때, 음성 인터랙션 장치는 대화 중단 시간 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다. 예를 들어, 대화에 관여한 사람들의 수가 기설정된 사람수보다 클 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다.
예를 들어, 사용자 감정 파라미터의 레벨이 강렬 (high) 일 때, 음성 인터랙션 장치는 대화 중단 시간 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다.
예를 들어, 사용자 감정 파라미터의 레벨이 강렬일 때, 음성 인터랙션 장치는 대화 교류 빈도 임계치를, 개입 시기에 도달하지 않은 것으로 결정하기 충분한 값으로 설정할 수 있다.
예를 들어, 대화에 관여한 사람들의 수가 기설정된 사람수 이하이고 사용자 감정 파라미터가 정상(normal)일 때, 음성 인터랙션 장치는 사용자 특성 파라미터, 사용자 감정 파라미터, 및 대화에 관여한 사람들의 수의 가중치를 계산하고, 가중치에 기초하여 대화 교류 빈도 임계치를 조절할 수 있다.
예를 들어, 대화에 관여한 사람들의 수가 기설정된 사람수 이하이고 사용자 감정 파라미터가 정상일 때, 음성 인터랙션 장치는 사용자 특성 파라미터, 사용자 감정 파라미터, 및 대화에 관여한 사람들의 수의 가중치를 계산하고, 가중치에 기초하여 대화 중단 시간 임계치를 조절할 수 있다.
일 실시예에서, 음성 인터랙션 방법은: 음성 데이터 및 텍스트 데이터에 기초하여, 대화의 시나리오를 분류하고; 시나리오 분류 결과에 기초하여 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치를 결정하고, 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치를 조절할 것인지 여부를, 시나리오 분류 결과에 기초하여 결정하는 것을 포함할 수 있다. 음성 인터랙션 방법은 음성 인터랙션 장치에서 수행될 수 있으나, 이에 제한되지 않는다.
일 실시예에서, 음성 데이터 및 텍스트 데이터에 기초하여, 대화의 시나리오를 분류하는 것은: 텍스트 데이터에 기초하여 대화 구조 및 주제 키워드의 고정성을 결정하고; 음성 데이터의 파형에 기초하여 인터랙션 리듬을 결정하고; 및 대화 구조, 주제 키워드의 고정성, 및 인터랙션 리듬에 기초하여 대화의 시나리오를 분류하는 것을 포함할 수 있다.
일 실시예에서, 시나리오 분류 결과에 따라 대화 중단 시간 및/또는 대화 교류 빈도가 조절 여부가 달라질 수 있다. 예를 들어, 시나리오 분류 결과 사용자 간 대화는 담소 타입의 대화로 분류될 수 있고, 담소 타입의 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도가 조절될 수 있다. 예를 들어, 시나리오 분류 결과 사용자 간 대화는 질의응답 회의 타입의 대화로 분류될 수 있고, 질의응답 회의 타입으로 분류된 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하지 않는 것으로 결정될 수 있다. 예를 들어, 시나리오 분류 결과 사용자 간 대화는 고정 대화 프로그램 타입의 대화로 분류될 수 있고, 고정 대화 프로그램 타입으로 분류된 대화에 관여한 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하지 않는 것으로 결정될 수 있다.
일 실시예에서, 음성 인터랙션 방법은: 음성 데이터의 보이스프린트 특징에 기초하여 사용자를 식별하고, 음성 데이터 및 텍스트 데이터를, 식별된 사용자와 매칭시키는 동작을 포함할 수 있다. 음성 인터랙션 방법은 음성 인터랙션 장치에서 수행될 수 있으나, 이에 제한되지 않는다.
실시예들의 구체적인 구현은 아래에서 더 자세히 설명된다.
일 실시예에서, 음성 인터랙션 장치는 사용자의 현재 대화를 모니터링하고, 음성 인터랙션 장치는 대화에 포함된 문장 중 사용자의 직접적인 음성 명령이 포함되는지를 결정하고, 사용자의 직접적인 음성 명령의 문맥에 기초하여, 음성 인터랙션 장치로부터의 직접적인 피드백을 사용자가 적시에 받을 수 있도록 보장할 수 있다.
일 실시예에 따르면, 음성 인터랙션 장치는 대화에 능동적으로 개입하기 위한 적절한 시기를 결정할 수 있고, 사용자의 의도를 이해한 것에 기초하여, 자연스럽고 능동적인 인터랙션이 구현될 수 있다.
대화에 개입하기 위한 시기를 결정하는 것을 설명하기 위해 도 5 를 참조한다.
도 5 는 일 실시예에 따른 음성 인터랙션 프로세스의 예시적이고 개념적인 흐름도이다.
일 실시예에서, 다수 사용자 대화를 분석함으로써, 대화의 시나리오 특성들이 추출되어 학습될 수 있고, 시나리오 특성들을 학습한 모델을 이용하여 다수 사용자 대화가 특정 대화 시나리오로 분류될 수 있다. 예를 들어, 대화 시나리오는 담소 타입, 질의응답 회의 타입, 및 고정 대화 프로그램 타입 시나리오를 포함할 수 있으나, 이에 제한되지 않는다. 일 실시예에서, 대화 시나리오는, 대화 구조, 인터랙션 리듬, 및 장거리 대화 및 단일-라운드 대화에서 대화 주제의 특징 표현 결과에 기초하여 각 시나리오 특징들이 추출되고 학습될 수 있다. 각 시나리오 특징들을 학습한 모델을 이용하여, 다수-사용자 대화 시나리오가 속하는 카테고리가 결정될 수 있다.
도 6 은 일 실시예에 따른 시나리오 분류의 개략도이다. 보이스프린트 인식, 음성 인식, 등과 같은 기술들을 통해, 사용자 식별이 수행되어, 시나리오에서 사람들의 수 및 대화의 규칙성을 결정할 수 있다. 사용자를 식별하는 것은, 사용자를 어떤 태그로 태깅하는 것일 수 있다. 대화 시나리오의 음성 파형 특성을 분석함으로써, 시나리오에서 대화 리듬이 결정될 수 있다. 게다가, 음성 콘텐트 키워드가 시맨틱 이해 기술에 따라 태깅되어 대화의 주제를 결정할 수 있다.
일 실시예에서, 능동적 인터랙션의 운행 모드를 더 정의함으로써, 상이한 애플리케이션 시나리오들에서도 더 잘 적응하는 것을 보증할 수 있다. 다른 모드들에서 음성 인터랙션 장치는 여전히 대화 콘텐트를 모니터링 및 기록하지만, 피드백 콘텐트의 형식 및 개입 시간의 결정 로직은 상이할 수 있다.
본 개시에서, 기본 근거는 해당 모드에서 시스템의 개입 시기를 결정하기 위한 판단의 기준이 되는 기능을 나타낸다. 시기 결정을 위한 기초 규칙은 시스템이 개입하는 시기를 결정할 때 고려되는 대화 특성, 조건 등을 나타낸다. 시기 조절은 해당 대화에서 사용자에 의해 경험되는 기능에 영향을 미칠 수 있고, 시스템은 시기 조절에 따라 대화 개입 시기를 조절할 수 있다. 피드백 콘텐트는 해당 모드에서 시스템이 어떤 류의 답변을 제안하는지를 정의하고, 피드백 콘텐트의 성질의 상이함은 상이한 서버 (내부/외부) 로부터 유래할 수 있다.
표 1 은 상이한 모드들에서 기계 행동 모드 규칙을 구체적으로 설명한다.
시나리오 행동 모드 주제 예 시기 결정 전략 피드백 콘텐트
기본 근거 시기 결정을 위한 기초 규칙 시기 조절
일상 담소 타입 생활 모드 날씨, 음식, 옷, 전압, 음악, 스포츠, 등 의문문, 의도 대화 중단 시간, 대화 교류 빈도 감정, 사용자들의 수, 전형적 특성 애플리케이션 활동, 콘텐츠 추천
질의응답 타입 학습 모드 백과사전, 수학, 시, 문학, 역사, 등 질문 라이브러리 대화 중단 시간, 대화 교류 빈도 --- 질문 및 대답
고정 대화 프로그램 타입 게임 모드 파티 게임 게임 진행 게임 진행, 대화 빈도 사용자들의 수 게임 캐릭터 대화
표 1 은 상이한 시나리오들에서 시기 결정을 위한 상이한 규칙 및 상이한 시기 조절 팩터, 상이한 피드백 콘텐트 등을 나타낸다. 일 실시예에 따르면, 대화 시나리오마다, 시스템의 능동적인 개입을 위한 적합한 시기의 특정 결과는 달라질 수 있다. 모니터링 모듈은 대응하는 파라미터 및 미리 설정된 규칙 간의 관계를 검출할 수 있고, 적절한 능동적인 개입 시기를 결정할 수 있다.일 실시예에서, 사용자들의 수가 증가함에 따라, 담소 시나리오는 더 복잡해질 수 있고, 이 경우, 인공 지능은 개입하기 어려울 수 있다. 즉, 인공 지능은 사용자 간 대화에 개입할 타이밍을 잡기 어려울 수 있다. 그러므로, 디바이스가 이러한 경우에 활성화되는 확률이 너무 낮아지는 것을 방지하기 위해, 대화에 관여한 사람들의 수는, 개입 시기를 조절을 결정하기 위한 인자로서 이용될 수 있다.
도 7 은 일 실시예에 따른 임계치에 대한 사람수의 효과의 개략도이다.
일 실시예에서, 음성 인터랙션 장치와 사용자에 대한 비율 1:2 가 기준수로서 설정될 수 있다. 기준수는, 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치 조절의 기준이 될 수 있다. 예를 들어, 사용자들의 수가 2보다 클 때, 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치는, 음성 인터랙션 장치가 사용자들 간 대화에 개입하기 용이하도록 조절될 수 있다.
게다가, 화자의 인물 특징, 즉, 사용자 특성 파라미터나 사용자 감정 파라미터는 대화 시나리오에 영향을 미칠 수 있으므로, 전체 다수-사용자 대화 중 개별적인 사용자들의 참여의 균형을 유지하기 위해, 사용자를 태깅하여 사용자 별로 개입 시기를 결정하거나, 사용자 별로 피드백 콘텐트를 제공할 수 있고, 이는 도 8을 참조하여 설명한다.
도 8 은 일 실시예에 따른 사용자 특징을 태깅하는 것의 개략도이다. 사용자의 음성 및 음성 콘텐트를 분석함으로써 사용자의 특징이 태깅될 수 있다. 대화 중단 시간 임계치 및/또는 대화 교류 빈도 임계치는 태그 별로 조절될 수 있어, 모든 사용자에게 적절한 비율의 웨이크업 비율이 달성될 수 있다. 예를 들어, 대화를 매끄럽게 이어가기 위해 특정 사용자에 대해, 미리 설정된 피드백이 제공될 수 있다.
일 실시예에 따르면, 다수 사용자 대화 시나리오에서 사용자 감정의 상호 감염 및 중첩이 전체 대화의 전체 특징 퍼포먼스에 영향을 미칠 수 있음이 고려될 수 있다. 일 실시예에 따르면, 다수 사용자 대화 시나리오에서 사용자들의 감정 톤에서의 차이에 따라, 음성 인터랙션 장치의 능동적인 개입 시기가 조절될 수 있다. 일 실시예에서, 사용자의 감정 파라미터는, 능동적인 개입 시기를 위한 결정 조건을 조절하는데 이용되어, 다수-사용자 시나리오에서 음성 인터랙션 장치의 사용자 경험을 개선할 수 있다. 관련된 연구 결과를 참조하면, 능동적인 개입 시기를 결정하기 위해 기계의 파라미터에 대한 기본적인 감정의 영향이 정의되고, 다른 부합하는 감정은 분해되어 참고될 수 있다.
표 2 는 시기 결정에 대한 사용자 감정의 영향을 나타내는 표이다.
감정 행복함 화남 슬픔 무서움
대화 중단 시간 감소 현저하게 감소 현저하게 증가 증가
대화 교류 빈도 빨라짐 현저하게 빨라짐 현저하게 느려짐 느려짐
표 2에 도시된 바와 같이, 사용자가 특정 감정 상태일 때, 대화 중단 시간과 대화 교류 빈도는 반비례하는 경향을 보이므로, 일 실시예에서, 대화 중단 시간 임계치 및 대화 교류 빈도 임계치는 서로 반비례하게 (inversely) 조절될 수 있다. 예를 들어, 화가 난 사용자가 대화에 참여 중인 경우, 사용자 간 대화 사이의 중단 시간은 일반적으로 감소하고, 단위 시간 당 사용자 간 교류되는 대화의 빈도는 일반적으로 증가하게 된다. 이러한 사용자의 감정 상태를 고려하지 않고, 음성 인터랙션 장치가 사용자들 대화에 개입할 경우, 오히려 사용자들의 대화를 방해할 수 있다. 일 실시예에 따르면, 사용자의 감정 파라미터에 따라 대화 중단 시간 임계치 및 대화 교류 빈도 임계치가 조절되므로, 적절한 시기에 음성 인터랙션 장치가 사용자들 대화에 개입할 수 있다. 이때, 대화 중단 시간 임계치 및 대화 교류 빈도 임계치는 서로 반비례하게, 즉, 어느 하나가 증가하면 나머지 다른 하나는 감소하는 형태로 조절될 수 있다. 표 2에 도시된 바와 같이, 대화 중단 시간과 대화 교류 빈도는 사용자의 감정 상태에 따라 서로 반대 방향으로 움직이므로, 이러한 움직임을 고려하여 음성 인터랙션 장치는 대화 중단 시간 임계치 및 대화 교류 빈도 임계치 중 어느 하나를 증가시키면 나머지 하나를 감소시키도록 구현될 수 있다.
일 실시예에서, 개입 시기 조건이 충족될 때, 음성 인터랙션 장치는 사용자 의도에 대응하여 사용자에게 반환될 수 있는 적절한 콘텐트가 있는지를 결정할 수 있다.
사용자의 음성 중 직접적인 음성 명령에 연관되는 음성 데이터 또는 텍스트 데이터가 없을 경우, 다수-사용자 대화를 모니터링하는 동안, 음성 인터랙션 장치는 사용자의 대화로부터 사용자의 의도를 분석하여 키 정보를 태깅하여 실시간으로 사용자가 필요로 할 수 있는 보조 작업 및 관련된 정보를 예측할 수 있고, 이로써, 지능적 보조(어시스턴트)를 능동적으로 제공하기 위한 기반을 제공할 수 있다.
일 실시예에서, 사용자의 의도를 분석하기 위해, 음성 입력 콘텐트 (또는 그로부터 변환된 텍스트 콘텐트) 의 문법이 분석될 수 있다. 예를 들어, 표 3 에 도시된 바와 같이, 음성 정보에서, "무엇", "어떻게", "어디", "왜", 등과 같은 의문사가 검출되는지가 모니터링될 수 있다. 예를 들어, 표 3 에 도시된 바와 같이, 도움을 요청하는 의도를 표현하는 키워드, 예를 들어, "몰라", "이해할 수 없어", "어때", "...고 싶어", "기억나지 않아", "까먹었어", 등이 검출되는지가 모니터링될 수 있다.
일 실시예에서, 음성 인식을 통해 사용자의 궁금해하는 감정의 발현 여부가 학습될 수 있다. 일 실시예에서, 관련 키워드가 미리 설정되거나 학습하여 결정되어, 사용자의 의도 분석을 위한 정보 포인트로서 태깅될 수 있고, 대화 중 사용자 요구가 계산을 통해 도출될 수 있다. 동시에, 대화에서 사용자 감정이 분석될 수 있고, 감정 인자는 중요한 개입 시기 조절 근거로서 이용되어, 시나리오의 상태를 조절하고, 더 나은 사용자 경험을 만들 수 있다.
표 3 은 의도 키워드의 구성표이다.
의문 표현 도움 요청을 표현 요구를 표현
"무엇", "어떻게", "어디", "왜", "어때", "?" ... "몰라", "이해할 수 없어", "불분명해", "할 수 없어", "모르겠어", "잘 안들려", "잘 안보여" ... 놀다, 먹다, 보다, 생각하다, 가다, 오다, ...
사용자 대화에 능동적으로 개입하는 음성 인터랙션 장치의 결정에 대해: 다수 사용자 대화 시나리오 카테고리들, 사용자 대화의 중단 시간 및 대화 빈도의 검출, 및 감정 인식을 통해 시기 결정이 수행되고; 사용자 요구가 의도 분석을 통해 이해되어 적절한 피드백 콘텐트를 제공할 수 있다. 궁극적으로, 음성 인터랙션 장치는 적절한 시기를 결정하고 선택하여 사용자 대화에 능동적으로 참여할 수 있다. 사용자 대화에 최종적으로 참여할 것인지는 2개의 주요 조건을 포함할 수 있다. 2개의 주요 조건 중 하나는, 예를 들어, 현재 시기에서 사용자 대화에 개입하는 것이 사용자들 간의 보통의 대화 요구를 방해하지 않는 것일 수 있으나, 이에 제한되지 않는다. 2개의 주요 조건 중 다른 하나는, 정보를 획득하려는 사용자의 요구가 있고 음성 인터랙션 장치가 사용자에게 줄 적절한 피드백 콘텐트를 가지고 있음이 검출되는 것일 수 있으나, 이에 제한되지 않는다.
도 9 는 일 실시예에 따른 능동적인 인터랙션을 위한 전략의 개략도이다. 도 10 는 일 실시예에 따른 능동적인 인터랙션을 위한 구조의 도면이다.
일 실시예는 종래의 기술들, 예를 들어, 보이스프린트 인식 (voiceprint recognition; VPR), 음성 활동 검출 (voice activity detection; VAD), 자동 음성 인식 (automatic speech recognition; ASR), 자연어 이해 (natural language understanding; NLU), 등에 기초하여 지능적 인터랙션을 구현할 수 있다. 기능들은 주로 시나리오 분석을 위한 다수 사용자 인식, 대화 특징을 검출하기 위한 VAD 음성 검출 기술, 사용자 감정 및 의도를 분석하기 위한 기술, 및 시기 결정 및 능동적인 인터랙션을 구현하기 위한 시스템 결정 기술을 주로 포함할 수 있다.
다수 사용자 대화 시나리오에서 음성 인식 기술을 이용하여 사용자 음성 정보의 음향 특징이 획득되고, 음향 특징은 사용자의 음성 스피드, 억양, 대화 콘텐트, 및 감정 톤 등을 포함할 수 있으나, 이에 제한되지 않는다. 사용자는 복수의 특징들로 태깅되고 대화 콘텐트는 해당 사용자에 연관되어, 각각의 대화 시나리오에서 다수 사용자 대화가 모의되어 복원될 수 있다.
기술 구현 측면에서, GMM-UBM 시스템 프레임워크에서, UBM은 많은 수의 화자 특징 분포에 적합하고, 타겟 사용자의 데이터는 UBM의 특정 가우시안 분포의 부근에서 흩어진다. 적응적인 프로세스는 UBM 의 각 가우시안 분포를 타겟 사용자 데이터로 쉬프트하는 것이다. 타겟 사용자에 대해 GMM 모델을 조정하는 프로세스는 두 단계로 나뉠 수 있다.
먼저, 타겟 화자의 트레이닝 데이터가 UBM 모델의 새로운 파라미터 (가우시안 가중치, 평균 및 분산, 등) 을 계산하는 데 이용될 수 있다.
그 후, 획득된 새로운 파라미터가 UBM 모델의 원래 파라미터와 융합되어 타겟 화자의 모델이 획득될 수 있다.
구체적인 계산 방법은 다음과 같다:
GMM 모델 및 타겟 화자의 트레이닝 벡터 셋 X = (X1, X2, ..., XT) 이 주어지고, 새로운 파라미터가 계산될 수 있다.
Xi 및 UBM 에서 i번째 가우시안 분포 간의 유사도가 계산될 수 있다:
Figure pat00001
식 1
그 후, Pr(i|xt) 및 xt 가 가중치, 평균, 및 분산의 통계량을 계산하는 데 이용될 수 있다.
Figure pat00002
식 2
Figure pat00003
식 3
Figure pat00004
식 4
첫 번째 단계에서 획득된 새로운 파라미터가 UBM 모델의 원래 파라미터와 융합되어 타겟 화자의 모델이 획득될 수 있다:
Figure pat00005
식 5
Figure pat00006
식 6
Figure pat00007
식 7
이 경우, 적응적인 파라미터 {
Figure pat00008
} 는 새로운 파라미터 및 UBM 파라미터의 최종 모델에 대한 영향을 조절하는 데 이용될 수 있다. 정규화 인자 (가중치의 가중으로 이해될 수 있음) γ 는 각 혼합도의 가중이 다음을 만족하는 것을 보장할 수 있다.
Figure pat00009
식 8
도 11 은 일 실시예에 따른 음성 활동 검출 (voice activity detection; VAD) 에서 음성 활동 분석의 개략도이다.
일 실시예에서, 각각의 대화 시나리오에서 중단 시간 및 대화 빈도를 결정하기 위해, VAD 음성 활동 검출 방법을 이용할 수 있다. VAD 음성 활동 검출 방법은 음성 신호의 단기 에너지 및 단기 영교차율(zero-crossing rate)을 이용할 수 있다. 음성 신호는 프레임, 윈도우 처리될 수 있다. 각 프레임 신호의 에너지 및 영교차율이 계산될 수 있다. 단기 에너지는 각 프레임의 신호의 에너지의 합이고, 신호의 단기 에너지의 정의
Figure pat00010
는 다음의
Figure pat00011
과 같이 표현될 수 있다:
Figure pat00012
식 9
여기에서,
Figure pat00013
는 윈도우 함수이다. 단기 영교차율은 각 프레임의 신호가 0을 지나는 때의 수를 참조하고, 신호의 빈도 특성을 반영할 수 있다. 저주파 노이즈의 간섭을 저감시키기 위해, 임계치 (T) 가 설정되어, 영교차율이 양수 및 음수 임계치를 지나간다. 영교차율의 계산 식은 다음과 같이 표현될 수 있다:
Figure pat00014
식 10
여기에서,
Figure pat00015
는 부호 함수이다.
사람의 음성은 무성음 (voiceless sound) 및 유성음 (voiced sound) 을 포함할 수 있다. 유성음의 에너지는 무성음보다 높고, 무성음의 영교차율은 무음보다 크고, 따라서, 유성음은 단기 에너지를 이용하여 먼저 구별되고, 그 후, 무성음이 영교차율을 이용하여 추출될 수 있다. 이를테면, 음성 세그먼트 및 비음성 세그먼트가 구별될 수 있고, 이로써 중단 시간 및 대화 빈도를 획득할 수 있다. 구체적인 단계들 및 방법들은 도 11 에서 도시된다. 알고리즘은: 단기 에너지를 위해 높은 임계치 (EH) 및 낮은 임계치 (EL) 를 설정하고, 단기 영교차율을 위해 임계치 (ZS) 를 설정하고; 및 단기 에너지의 더 높은 EH 임계치를 이용하여 유성음, 즉, 도면에 도시된 A1 - A2 인터벌을 획득한다. 그 후, 음성의 양 끝은 무성음이자 음성 중 일부이므로, 무성음인 부분은 더 낮은 에너지를 갖지만 더 높은 영교차율을 갖는다. 무성음 부분을 획득하기 위해, 유성음 세그먼트가 양단을 향해 계속적으로 검색될 수 있다. EL 보다 더 큰 단기 에너지를 갖고 ZS 보다 더 큰 단기 영교차율을 갖는 부분은, 음성의 무성음인 것으로 여겨진다. 최종적으로 도 11 에 도시된 B1-B2 부분이 음성 부분으로서 획득될 수 있다.
일 실시예에서, 감정 인식을 위해, 인간 언어에서 감정 성분, 예를 들어, 화자의 감정 상태를 식별하기 위해 이용되는 톤, 크기가 추출될 수 있다. 서포트 벡터 머신 (support vector machine; SVM) 이 이러한 특징들을 다양한 감정 상태, 예를 들어, 화남, 슬픔, 무서움, 행복함, 및 중립으로 분류하는 데 이용될 수 있다.
먼저, 카이제곱 통계량 (Chi-square statistic; CHI) 을 이용하여 분류 모델의 감정 특징 단어 벡터를 수립하고, 식은 다음과 같다:
Figure pat00016
식 11
Figure pat00017
여기에서,
Figure pat00018
는 감정 카테고리 s 에서 단어 w 의 카이제곱 통계량을 나타내고; N 은 감정 트레이닝 데이터 세트의 크기를 나타내고;
Figure pat00019
는 감정 카테고리 s 에서 단어 w 를 포함하는 문서의 크기를 나타내고;
Figure pat00020
는 감정 카테고리 s 를 제외한 다른 감정 카테고리에서 단어 w 를 포함하는 문서의 크기를 나타내고;
Figure pat00021
는 감정 카테고리 s 에서 단어 w 를 포함하지 않는 문서의 크기를 나타내고,
Figure pat00022
는 감정 카테고리 s 에 포함되지 않고 단어 w 를 포함하지 않는 문서의 크기를 나타낸다.
특정 감정 카테고리에서 각 단어의 카이제곱 통계량은, 언급된 두 식들을 이용하여 카운트될 수 있다. 감정 특징 벡터 임계치는, 특징 벡터를 더 잘 구분할 수 있게 하기 위해 각 카테고리에 대해 설정될 수 있다. 감정 카테고리에서 감정 특징 단어 조합은 여기서 선택된 감정 특징 벡터로서 결합될 수 있다. 그 후, 머신 러닝 방법은 감정 특징 벡터를 분류하는 데 이용되어, 사용자 감정 파라미터가 결정될 수 있다.
일 실시예에 따르면, 사용자들 간 음성 인터랙션의 중단 시간 및 사용자들 간 대화 빈도의 변화는, 대화 개입 시기의 결정 인자로서 이용될 수 있다. 동시에, 감정 및 프로그램 기설정된 규칙들은 실시간으로 개입 시기를 조절하는 데 이용될 수 있다. 이로써, 각 대화 시나리오에서 대화에 능동적으로 개입하기 적합한 시기가 결정될 수 있다.
도 12 는 일 실시예에 따른 대화에서 개입 시기에 대한 결정 로직의 개략도이다.
일 실시예에서, 음성 인터랙션 장치는 음성 인터랙션의 중단 시간 및 다수-사용자 대화에서 대화 빈도의 변화를 모니터링하고, 모니터링되는 음성 인터랙션의 중단 시간 및 대화 빈도를, 해당 시나리오에 대해 미리 설정된 중단 시간 임계치 및 대화 빈도 임계치와 비교할 수 있다. 중단 시간 임계치 및 대화 빈도 임계치는 사용자 대화의 중단 시간의 평균치 및 대화 빈도의 평균치로 설정될 수 있으나, 이에 제한되지 않는다. 만약 대화 파라미터가, 시나리오에서 사용자들 간 대화 중 브레이크가 있음을 나타내는 경우, 대응하는 요구 피드백 콘텐트가 능동적으로 사용자에게 피드백될 수 있다.
표 4 는 시기 결정 임계치를 위한 조절 규칙의 제 1 예시적인 구성표이다.
사용자수 대화 빈도 임계치 중단 시간 임계치 사용자 특성 파라미터 대화 빈도 임계치 중단 시간 임계치 사용자 특성 파라미터 대화 빈도 임계치 중단 시간 임계치
2 근거 5회/분 근거 0.3 분 말이 빠름 증가 감소 행복함 증가 감소
3 증가 감소 말이 느림 감소 증가 화남 증가 감소
?? 증가 감소 수다적임 증가 감소 무서움 증가 감소
N 감소 감소 과묵함 감소 증가 슬픔 감소 증가
표 4 에서, 예를 들어, 기본 대화 빈도 임계치가 기본값 (5회/분) 이고, 기본 중단 시간 임계치가 0.3분의 기본값이다. 이때, 대응하는 사용자 수는 2명이다. 즉, 기본 사용자 수는 2명일 수 있다.일 실시예에서, 대화 사용자 수 (대화에 관여한 사람들의 수) 가 증가할 때, 대화 교류 빈도 임계치는 증가하고, 대화 중단 시간 임계치는 감소하도록 구현될 수 있다.
일 실시예에서, 사용자 감정 파라미터가 사용자가 행복함을 나타낼 때, 대화 교류 빈도 임계치는 증가하고, 대화 중단 시간 임계치는 감소할 수 있다. 사용자 감정 파라미터가 사용자가 화남을 나타낼 때, 대화 교류 빈도 임계치는 증가하고, 대화 중단 시간 임계치는 감소할 수 있다. 사용자 감정 파라미터가 사용자가 무서워함을 나타낼 때, 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자 감정 파라미터가 사용자가 슬픔을 나타낼 때, 대화 교류 빈도 임계치는 감소하고 대화 중단 시간 임계치를 증가할 수 있다. 사용자 특성 파라미터가 사용자가 수다적임을 나타낼 때 (즉, 말이 많음), 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자 특성 파라미터가 사용자가 수다적이지 않음을 나타낼 때 (즉, 과묵함), 대화 교류 빈도 임계치는 감소하고 대화 중단 시간 임계치는 증가할 수 있다. 사용자 특성 파라미터가 사용자가 말이 빠름을 나타낼 때, 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자 특성 파라미터가 사용자가 말이 느림을 나타낼 때, 대화 교류 빈도 임계치는 감소하고 대화 중단 시간 임계치는 증가할 수 있다.
표 4 는 예시적으로, 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하는 예를 설명한다. 당업자라면, 이러한 설명은 오직 예시에 불과하고, 실시예들의 보호 범위를 한정하고자 함이 아님을 깨달을 것이다.
일 실시예에서, 대화에서 사용자들의 수 (대화에 관여한 사람들의 수) 가 소정 값보다 클 때 (예를 들어, 미리 결정된 임계치 10을 초과할 때), 음성 인터랙션 장치는 대화에 능동적으로 개입하지 않도록 구현될 수 있다. 일 실시예에서, 사용자의 감정의 강도 레벨을 더 분석하여, 사용자의 감정이 강한 것으로 결정될 때, 음성 인터랙션 장치는 대화에 능동적으로 개입하지 않도록 구현될 수 있다. 이러한 경우에는 사용자 간 대화만으로도 사용자들이 벅찰 수 있으므로, 사용자들이 서로 대화에 더 몰입할 수 있도록, 음성 인터랙션 장치는 대화에 개입하지 않을 수 있다. 일 실시예에서, 로직 프로세싱은, 중단 시간 임계치 및 대화 교류 빈도 임계치에 기초하여 구현될 수 있다.
표 5 는 시기 결정 임계치를 위한 조절 규칙의 예시적인 구성표이다.
사용자 수 대화 빈도 임계치 중단 시간 임계치 사용자 특성 파라미터 대화 빈도 임계치 중단 시간 임계치 사용자 감정 파라미터 감정 레벨 대화 빈도 임계치 중단 시간 임계치
2 근거 5회/분 근거 0.3 분 말이 빠름 증가 감소 행복함 강렬 X X
정상 증가 감소
3 증가 감소 말이 느림 감소 증가 화남 강렬 X X
정상 증가 감소
?? 증가 감소 수다적임 증가 감소 무서움
강렬 X X
정상 증가 감소
10 X X 과묵함 감소 증가 슬픔 강렬 X X
정상 감소 증가
표 5 에서, 예를 들어, 기본 대화 빈도 임계치가 기본값 (5회/분) 이고, 기본 중단 시간 임계치가 0.3분의 기본값이다. 이때, 대응하는 사용자 수는 2명이다. 즉, 기본 사용자 수는 2명일 수 있다.사용자의 수가 증가할 때, 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자들의 수가 증가하여 미리 설정된 임계치 이상일 경우 (예를 들어, 10명), 대화 중단 시간 임계치는 개입 시기에 도달하지 않는 것으로 결정하기 충분한 값으로 설정될 수 있다 (9999 또는 무한, 등과 같은 매우 큰 값). 또는 대화 빈도가 개입 시기에 도달하지 않는 것으로 결정하기 충분한 값으로 설정될 수 있다 (0.0001 또는 무한히 작은 것과 같은 매우 작은 값). 이 경우, 음성 인터랙션 장치는 대화에 능동적으로 개입하지 않고, 사용자들의 대화만 모니터링할 수 있다. 일 실시예에서, 음성 인터랙션 장치는, 사용자들의 대화를 모니터링한 결과, 사용자의 수가 미리 설정된 임계치 미만으로 떨어진 경우, 대화 중단 시간 임계치 또는 대화 빈도 임계치를, 개입 시기에 도달할 수 있는 적절한 값으로 다시 조정할 수 있다.
표 5 에서 'X'는, 개입 시기에 도달하지 않는 것으로 결정하기 충분한 값을 의미하며, 임계치의 성질에 따라 9999 또는 무한, 등과 같은 매우 큰 값이거나 0.0001 또는 무한히 작은 것과 같은 매우 작은 값일 수 있다.
일 실시예에서, 사용자 감정 파라미터의 레벨은 강렬 및 정상으로 더 구분될 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 감정 파라미터의 레벨이 강렬일 때, 대화 중단 시간 임계치는 개입 시기에 도달하지 않는 것으로 결정하기 충분한 값으로 설정될 수 있다 (9999 또는 무한, 등과 같은 매우 큰 값), 또는 대화 빈도는 개입 시기에 도달하지 않는 것으로 결정하기 충분한 값으로 설정될 수 있다 (0.0001 또는 무한히 작은 것과 같은 매우 작은 값).
일 실시예에서, 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 감정 파라미터의 레벨이 정상일 때, 대화 교류 빈도 임계치 및 대화 중단 시간 임계치는 사용자들의 수, 사용자 특성 파라미터, 및 사용자 감정 파라미터에 기초하여 조절될 수 있다. 구체적으로, 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 감정 파라미터가 사용자가 행복함을 나타낼 때, 대화 교류 빈도 임계치는 증가하고, 대화 중단 시간 임계치는 감소할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 감정 파라미터가 사용자가 화남을 나타낼 때, 대화 교류 빈도 임계치는 증가하고, 대화 중단 시간 임계치는 감소할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 감정 파라미터가 사용자가 무서워함을 나타낼 때, 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 감정 파라미터가 사용자가 슬픔을 나타낼 때, 대화 교류 빈도 임계치는 감소하고 대화 중단 시간 임계치를 증가할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 특성 파라미터가 사용자가 수다적임을 나타낼 때 (즉, 말이 많음), 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 특성 파라미터가 사용자가 수다적이지 않음을 나타낼 때 (즉, 과묵함), 대화 교류 빈도 임계치는 감소하고 대화 중단 시간 임계치는 증가할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 특성 파라미터가 사용자가 말이 빠름을 나타낼 때, 대화 교류 빈도 임계치는 증가하고 대화 중단 시간 임계치는 감소할 수 있다. 사용자들의 수가 미리 설정된 임계치보다 작고 사용자 특성 파라미터가 사용자가 말이 느림을 나타낼 때, 대화 교류 빈도 임계치는 감소하고 대화 중단 시간 임계치는 증가할 수 있다.
예를 들어, 대화 중단 시간 임계치 TimingThreshold 에 대해, 다음과 같은 조절 방법이 적용될 수 있다.
Figure pat00023
또는 사용자 감정 파라미터의 레벨이 강렬 (high) 일 때, TimingThreshold=
Figure pat00024
;
Figure pat00025
및 사용자 감정 파라미터의 레벨이 정상 (normal) 일 때, TimingThreshold=
Figure pat00026
;
여기서, 사용자수 (Number) 의 미리 설정된 가중치가 w1 이고; 사용자 특성 파라미터 (character) 의 미리 설정된 가중치가 w2 이고; 및 사용자 감정 파라미터의 미리 설정된 가중치가 w3 일 수 있다. 사용자 감정 파라미터는 두 개의 레벨, 즉, 강렬(high)과 정상(normal) 중 하나일 수 있다. Base 는 조절 전 대화 중단 시간 임계치이다.
사용자들의 수가 10보다 크거나, 사용자 감정 파라미터의 레벨이 강렬일 때, 대화 중단 시간 임계치는 무한대이고, 음성 인터랙션 장치는 능동적으로 대화에 개입하지 않는다. 사용자들의 수가 10 이하이거나, 사용자 감정 파라미터의 레벨이 정상일 때, 사용자수, 사용자 감정 파라미터, 및 사용자 특성 파라미터의 가중치가 가중치 알고리즘, 및 가중치의 합에 기초하여 계산되고, Base 는 최종 대화 중단 시간 임계치로서 이용될 수 있다. 여기에서, 음성 인터랙션 장치는 대화에 능동적으로 개입할 시기를 선택할 수 있다.
표 5 는 예시적으로, 사람들의 수, 사용자 감정 파라미터, 또는 사용자 특성 파라미터에 기초하여, 대화 중단 시간 및/또는 대화 교류 빈도를 조절하는 예를 설명한다. 당업자라면, 이러한 설명은 오직 예시에 불과하고, 실시예들의 보호 범위를 한정하고자 함이 아님을 깨달을 것이다.
일 실시예에서, 사용자 특징을 학습하기 위해, 다양한 방법이 이용될 수 있다. 특징 학습 기술은 데이터로부터 특징을 자동적으로 학습하고, 분류를 더 효과적으로 수행하고, 나아가, 더 정확한 특징을 획득하기 위한 더 지능적인 방법을 찾는 데 이용될 수 있다.
도 13 은 일 실시예에 따른 장단기 메모리 (long short-term memory; LSTM) 네트워크-오토인코더의 특징 추출의 개략도이다. 오토인코더는, 저차원 벡터를 갖는 입력 데이터를 나타내는 숨겨진 특징을 학습하는 비지도 (unsupervised) 신경망 모델이다. 학습된 새로운 특징은 원래 입력 데이터를 재구성할 수 있다. 중간의 저차원 벡터는 학습 특징이다. LSTM 의 특징 레이어는 LSTM 유닛을 포함하고, 이는 시간에 걸쳐 메모리에 정보를 저장할 수 있고, 그 후, 단기 및 장기 시간 종속 정보를 포함하는 특징을 추출할 수 있다. 멀티 특징 다변수 시계열 데이터에 대해, LSTM-오토인코더가 이용되어, 능동적 개입의 시스템 결정 및 분류를 수행하는 데 이용될 수 있다.
일 실시예에서, 사용자 의도 인식의 기술구현 측면에 있어, 획득된 음성 콘텐트를 전처리할 수 있고, 전처리는 단어 세그먼테이션 (segmentation), 고빈도 쓸모없는 단어의 제거, 등을 포함할 수 있다. 전처리 후, 텍스트를 분류하기 위해 컨볼루션 신경망에 대한 알고리즘을 이용하여 Text CNN을 통해 사용자의 의도 인식이 수행될 수 있다. 전처리된 문장은 임베딩 레이어로 전달되어 입력 문장의 워드 벡터 표현을 획득하고, 그 후 컨볼루션 레이어로 전달되어 문장의 특징 벡터를 추출하는 데 이용될 수 있다. 그 후, 컨볼루션 후에 획득된 약간의 일차원 벡터 최대값에 대해 결정되고, 그 후, 해당 레이어의 출력값으로서 함께 스티칭될 수 있다. 최종적으로, 각 의도의 확률이 완전 연결된 레이어 (fully connected layer) 를 통해 출력될 수 있다. 전체 모델의 구조가 도 14 에 도시된다.
도 14 는 일 실시예에 따른 의도 인식을 위한 컨볼루션 신경망 (convolutional neural networks; CNN) 모델의 개략도이다.
사용자의 의도를 이해한 후, 일 실시예는 적절한 피드백 콘텐트를 선택하고, 다양한 방법, 예를 들어, 음성 정보, 음악 재생, 또는 그림 디스플레이로 콘텐트를 반환할 수 있다. 다음은 피드백 콘텐트의 예들이다.
표 6 은 의도 인식 및 피드백 콘텐트의 예시적인 표이다.
대화 의도 시스템 피드백 콘텐트
A: "내일 날씨는 어때?"
B: "난 몰라"
날씨 음성 프롬프트: 기상청의 예보에 따르면, 내일 비가 올 예정이므로 외출 시 우산을 가져가는 것을 기억하세요.
A: "'타이타닉' 테마송은 매우 좋아. 부를 수 있어?"
B: "좋은 생각인데, 난 부를 수 없어"
음악 음악 재생: 노래 "My Heart will go on"
A: "휴일에 파리 가"
B: "파리에 재미있는 곳이 어디야?"
여행 사진 디스플레이: 루브르, 에펠 타워, 노틀담, 등.
위에서 획득된, 다수 사용자 담소 시나리오에서 중단 시간, 대화 빈도, 감정, 의도, 등의 특징들에 따라, 일 실시예는 랜덤포레스트 (random forest) 방법을 이용할 수 있고, 이로써 능동적인 개입 시기의 결정 및 능동적인 인터랙션을 수행할 수 있다. 랜덤포레스트는 많은 결정 트리들로 구성될 수 있다. 각 결정 트리는, 모델의 트레이닝 세트로서 모든 샘플 데이터로부터 반환된 복수의 반복된 샘플링들을 갖는다. 능동적인 인터랙션이 수행될 수 있는지를 결정하기 위해 특징들에 따라 분류가 수행되고, 이는 복수회 반복될 수 있고, 이로써 복수의 결정 트리를 생성하여 랜덤 포레스트를 형성할 수 있다. 포레스트를 획득한 후, 새로운 입력이 들어오면, 포레스트에서 각 결정 트리는, 능동적인 인터랙션이 수행되어야 하는지를 결정할 수 있다. 복수의 결정 트리들의 결과들은 투표 (voting) 방법을 이용하여 소수가 다수에 복종하여 최종 결정 결과를 도출할 수 있다.
도 15 는 일 실시예에 따른, 능동적인 인터랙션을 수행할 것인지에 대한 결정의 개략도이다. 능동적인 인터랙션을 수행할 것인지의 전형적인 프로세싱 로직은 도 15 에 설명된다. 당업자라면, 도 15 에 도시된 프로세싱 로직은 오직 예시에 불과하고, 실시예들의 보호 범위를 한정하고자 함이 아님을 깨달을 것이다.
다수 사용자 대화에 능동적으로 개입하기 위한 결정을 내릴 때, 실시예들은 전체적으로 사용자 대화 시나리오를 분석하고, 대화의 콘텐트 및 사용자 의도를 분석하여 이해하고, 다수 사용자 대화 시나리오에서 스마트 디바이스의 개입에 적합한 시기를 결정함으로써 능동적인 개입 시점을 결정하고, 의도 결정의 결과에 기초하여 적절한 피드백 콘텐트를 준비할 수 있다. 조건들이 동시에 충족되는 경우, 음성 인터랙션 장치는 다수-사용자 대화에, 마치 대화의 참여자처럼, 능동적으로 개입할 수 있다.
다음은 일 실시예에 따른 시나리오 예의 설명이다.
(1) 담소 타입 시나리오
행동 모드: 생활모드
도 16 은 일 실시예에 따른 담소 타입의 능동적인 인터랙션의 제 1 개략도이다.
담소 타입의 대화 시나리오에서, 비교적 안정적인 규칙이 사용자들 간 대화 내에 오랜 시간 동안 존재하지 않는다. 음성 인터랙션 장치는 사용자들 간 대화를 실시간으로 검출 및 인식하고, 대화에서 사용자의 암시적인 의도를 분석하고, 적절한 시기를 검출하여 대화에 능동적으로 개입할 수 있다. 사용자의 의심을 검출하고 사용자의 의도를 인식한 것에 응답하여, 사용자 의도, 음성 인터랙션 장치는 적절한 시기를 결정하여 대화 어시스턴스를 제공할 수 있다. 예를 들어, 감정의 변화에 대해, 대화 빈도의 임계치가 증가하고, 중단 시간의 임계치는 감소하고, 이는 대화에 능동적으로 개입하기 위한 시기의 조절로서 취급될 수 있다. 이로써, 음성 인터랙션 장치의 시간 낭비를 줄이고, 과도하게 사용자를 방해하는 것을 피할 수 있다. 이 모드는 생활 어시스턴트로 이용될 수 있다.
행동 모드: 생활 모드 (시기 결정 임계치의 조절에 관해)
도 17 은 일 실시예에 따른 담소 타입의 능동적인 인터랙션의 제 2 개략도이다.
사용자가 감정적으로 긴장하고 말을 빨리할 때, 중단 시간 임계치는 감소하고, 대화 빈도 임계치는 증가하여, 음성 인터랙션 장치는 능동적인 피드백을 더 빨리 수행할 수 있다.
(2) 질의응답 회의 타입 시나리오:
질의응답 회의 타입의 대화 시나리오는 특정 대화 로직을 갖는다. 음성 인터랙션 장치는 미리 설정된 문제 라이브러리에 기초하여 질문을 물어볼 수 있고, 중단 시간 및 대화 빈도에 기초하여 개입 시기를 결정하고, 질의응답의 원활한 진행을 담보할 수 잇다.
행동 모드: 학습 모드-유치원
도 18 은 일 실시예에 따른 질의응답 회의 타입의 능동적인 인터랙션의 개략도이다.
학습 모드에서, 음성 인터랙션 장치는 미리 설정된 문제 라이브러리에 따라 문제를 물어보고 해답을 검출함으로써 아이의 주의와 참여를 불러 일으킬 수 있다.
(3) 고정 대화 프로그램 타입 시나리오:
고정 대화 프로그램 타입의 시나리오에서 전체적인 대화는 특정 규칙을 엄격히 따른다. 대화 프로그램은 특정 규칙에 따라 진행되므로, 고정 대화 프로그램으로 지칭될 수 있으나, 대화 프로그램의 규칙이 변경될 수도 있고, 규칙이 변경되기 전 해당 규칙에 의해 지배되는 대화 프로그램은 여전히 고정 대화 프로그램으로 지칭될 것이다. 규칙은 사용자들의 발언 순서, 총 발언 시간, 응답 시간(이전 사용자가 발언을 종료한 후 다음 사용자가 발언하기 까지 소요된 시간), 발언 내용 등을 포함할 수 있으며, 음성 인터랙션 장치는 대화 프로그램(예: 도 19의 마피아 게임)이 이러한 규칙에 따라 진행되는지 여부를 결정할 수 있다. 일 실시예에서, 음성 인터랙션 장치는 대화 프로그램이 미리 결정된 규칙에 따라 원활히 진행될 수 있도록 해당 대화 프로그램에 개입하여 사용자들의 참여를 독려하거나, 사용자들의 발언을 채근할 수 있다.
일 실시예에서, 음성 인터랙션 장치는 대화 프로그램에 참여한 사용자의 발언이 종료되었는지를 결정할 수 있다. 예를 들어, 음성 인터랙션 장치는 해당 프로그램에 참여한 모든 사용자들의 발언이 종료되었는지 결정할 수 있다. 예를 들어, 총 5명의 사용자가 참여한 대화 프로그램에서 5명의 사용자가 모두 발언하였는지를 결정하여, 발언하지 않은 사용자에 대한 발언 요청 피드백을 출력할 수 있다.
일 실시예에서, 고정 대화 프로그램 타입의 시나리오에서 일 사용자의 발언이 종료되었는지 결정할 수 있다. 예를 들어, 총 5명의 사용자가 참여한 대화 프로그램에서, 규칙상 소정의 순서에 따라 사용자가 발언해야 하는 경우, 해당 순서의 사용자의 발언이 종료되었는지를 결정하여 다음 순서의 사용자에 대한 발언 요청 피드백을 출력할 수 있다.
음성 인터랙션 장치는 현재 개입 시기가, 중단 시간에 따라 기설정된 프로그램에 부합하는지를 결정하여, 사용자에게 미리 설정된 콘텐트 정보를 합리적인 시기에 반환할 수 있다.
행동 모드: 게임 모드-게임 (음성 인터랙션 장치는 마스터 컨트롤러로서 기능하고(예를 들어, 음성 인터랙션 장치는 게임에서 사용자들의 역할 및 행동을 모두 아는 "갓"으로서 게임을 진행함), 총 5 명의 플레이어가 있음)
도 19 는 일 실시예에 따른 고정 대화 프로그램 타입의 능동적인 인터랙션의 개략도이다.
위의 게임 모드에서, 음성 인터랙션 장치는, 마스터 컨트롤러의 역할로서, 전체 게임의 규칙에 따라 대화 프로그램 프로세스 (즉, 게임 프로그램 프로세스)를 제어하고, 기설정된 규칙에 따라 말하고, 프로그램을 진행하여 사용자들의 투표(vote)를 집계하고, 사용자에게 더 나은 게임 경험을 제공할 수 있다.
실시예들은, 다수-사용자 대화 시나리오에서 수동적인 음성 인터랙션을 대화 중 적절한 시기 (時機) 에 다수 사용자들 간의 대화에 능동적으로 개입하는 것으로 전환하고, 이는 자연스러운 인터랙션에 더 가깝다. 시나리오 분류를 통해 다수 사용자 대화의 특징이 분석되고, 능동적인 개입 시기를 위한 특정 조건이, 분류에 기초하여 정의되고, 이로써 적절한 능동적인 인터랙션 시기를 결정할 수 있다. 최종적으로, 이 시기에, 적합한 피드백 콘텐트가 시나리오에서 사용자 의도에 따라 제공되어, 다수-사용자 대화 시나리오에서 지능적 음성 인터랙션 시스템의 사용자 경험을 꾸준히 향상시킬 수 있다. 게다가, 피드백 콘텐트는 모든 지능적 음성 디바이스들에 적용될 수 있고, 이는 인공 지능의 음성 인터랙션 영역에 가치를 가져올 수 있다. 바람직하게는, 일 실시예에 따른 음성 인터랙션 장치는 세션-지향된 (Session-Oriented) 프레임워크에 기초하여 구현될 수 있다.
도 20 은 일 실시예에 따른 스토리지-프로세서 구조를 가지고 구성된 음성 인터랙션 장치의 구조도이다.
도 20 에 도시된 바와 같이, 스토리지-프로세서 구조를 갖는 음성 인터랙션 장치는: 프로세서 (2001) 및 스토리지 (2002) 를 포함할 수 있다. 스토리지 (2002) 는 프로세서 (2002) 에 의해 실행 가능한 애플리케이션 프로그램을 저장하고, 프로세서 (2002) 로 하여금 전술된 음성 인터랙션 방법을 실행하게 할 수 있다.
이 경우, 스토리지 (2002) 는 다양한 저장 매체, 예를 들어, EEPROM (electrically erasable and programmable read-only memory), 플래시 메모리, PROM (programmable program read-only memory), 등으로써 구체적으로 구현될 수 있다. 프로세서 (2001) 는 하나 이상의 중앙 처리 유닛을 포함하거나, 하나 이상의 FPGA (field programmable gate arrays) 를 포함하는 것으로 구현될 수 있고, FPGA 는 하나 이상의 중앙 처리 유닛 코어들을 통합한다. 구체적으로, 중앙 처리 유닛 또는 중앙 처리 유닛 코어는 CPU 또는 MCU 로서 구현될 수 있다.
도 21 은 일 실시예에 따른 방법의 흐름도이다.
동작 2102 에서, 사용자의 대화로부터 음성 데이터가 획득될 수 있다. 일 실시예에 따르면, 음성 인터랙션 장치는 웨이크업 단어가 수신되지 않더라도 사용자의 대화를 모니터링하여 음성 데이터를 획득할 수 있다. 이로써, 음성 인터랙션 장치는 사용자 간 대화에 능동적으로 개입할 수 있다.
동작 2104 에서, 획득된 음성 데이터가 텍스트 데이터로 변환될 수 있다. 음성 데이터를 텍스트 데이터로 변환하고, 사용자의 의도를 분석하는 것은 도 3, 4, 및 5 를 참조하여 전술한 바 중복 설명은 생략한다.
동작 2106 에서, 대화의 특성을 나타내기 위한 파라미터가 결정될 수 있다. 일 실시예에서, 획득된 음성 데이터에 기초하여 파라미터가 결정될 수 있다. 일 실시예에서, 변환된 텍스트 데이터에 기초하여 파라미터가 결정될 수 있다. 일 실시예에서, 획득된 음성 데이터 및 변환된 텍스트 데이터에 기초하여 파라미터가 결정될 수 있다.
일 실시예에서, 파라미터는, 대화의 시나리오를 나타내는 대화 시나리오 파라미터를 포함할 수 있다. 대화 시나리오 파라미터는 담소, 질의응답, 고정 대화 프로그램, 등을 나타낼 수 있으나, 이에 제한되지 않는다. 대화 시나리오 파라미터에 대해서는 도 6을 참조하여 전술한 바 중복 설명은 생략한다.
동작 2108 에서, 대화 개입을 트리거링하기 위한 조건이 조절될 수 있다. 대화 개임을 트리거링하기 위한 조건은 미리 결정된 값으로부터 조절될 수 있다. 일 실시예에서, 조건은, 동작 2106 에서 결정된 파라미터에 기초하여 결정되거나 조절될 수 있다.
일 실시예에서, 조건은 대화 시나리오 파라미터에 따라 상이할 수 있다. 예를 들어, 담소 시나리오에 대해서는, 다른 시나리오보다 더 완화된 조건이 설정될 수 있다. 한편, 조건은 임계치일 수 있고, 임계치의 크기가, 파라미터에 따라 상이할 수 있다. 예를 들어, 조건은 대화 중단 시간 임계치 및 대화 교류 빈도 임계치일 수 있다. 일 실시예에서, 대화 시나리오 파라미터에 따라 대화 도중 조건이 조절될 수 있다. 예를 들어, 대화 중단 시간 임계치 및 대화 교류 빈도 임계치는 서로 반비례하게 조절될 수 있다.
동작 2110 에서, 피드백이 출력될 수 있다. 일 실시예에서, 피드백은, 동작 2108 에서 조절된 조건이 충족될 때, 출력될 수 있다. 예를 들어, 대화 중 대화 중단 시간이 대화 중단 시간 임계치보다 커질 때, 또는 대화 중 대화 교류 빈도가 대화 교류 빈도 임계치보다 작아질 때, 피드백이 출력될 수 있다. 피드백은 대화 중 검출된 사용자의 의도에 대응할 수 있다. 사용자의 의도를 분석하는 것은 도 13 및 14 를 참조하여 전술한 바 중복 설명은 생략한다.
일 실시예에서, 파라미터는 대화에 참여하는 사용자의 수를 나타내는 사용자수 파라미터를 포함할 수 있다. 사용자수 파라미터에 대해서는 도 7을 참조하여 전술한 바, 중복 설명은 생략한다. 한편, 사용자수 파라미터에 따라 동작 2108 에서 조건이 조절될 수 있다. 예를 들어, 사용자수 파라미터가 커질수록, 즉, 대화에 참여하는 사용자의 수가 많을수록, 대화 중단 시간 임계치가 감소하고, 대화 교류 빈도 임계치가 증가하도록 구현될 수 있다.
일 실시예에서, 파라미터는 사용자의 특성을 나타내는 사용자의 특성 파라미터를 포함할 수 있다. 사용자 특성 파라미터에 대해서는 도 8을 참조하여 전술한 바 중복 설명은 생략한다. 한편, 사용자 특성 파라미터에 따라 동작 2108 에서 조건이 조절될 수 있다. 사용자 특성 파라미터는 사용자의 말의 템포에 기초하여 결정될 수 있다. 사용자 특성 파라미터는 단위 시간 당 사용자의 발언의 양에 기초하여 결정될 수 있다. 이에 따라, 사용자의 말의 템포가 더 빠르거나, 단위 시간 당 사용자의 발언의 양이 더 많을수록, 대화 중단 시간 임계치는 감소하고, 대화 교류 빈도 임계치는 증가하도록 구현될 수 있다.
일 실시예에서, 파라미터는 대화에 참여하는 사용자의 감정 상태를 나타내는 사용자 감정 파라미터를 포함할 수 있고, 사용자 감정 파라미터에 따라 동작 2108 에서 조건이 조절될 수 있다. 예를 들어, 사용자 감정 파라미터가 커질수록, 즉, 사용자의 감정이 강렬해질수록, 대화 중단 시간 임계치가 감소하고 대화 교류 빈도 임계치가 증가하도록 구현될 수 있다. 조건을 다양하게 변경하는 것에 대해서는 도 12, 15, 16, 17, 18, 19, 및 20 에서 다양한 예를 들어 설명한 바, 중복 설명은 생략한다.
일 실시예에서, 파라미터에 기초하여 조건을 조절함으로써, 음성 인터랙션 장치의 대화 개입을 지연시키도록 구현될 수 있다. 예를 들어, 음성 인터랙션 장치가 대화에 개입하지 않도록, 조건이 조절될 수 있다. 예를 들어, 대화 중단 시간 임계치가 매우 큰 값으로 설정되고, 대화 교류 빈도 임계치는 매우 작은 값으로 설정될 수 있다. 음성 인터랙션 장치가 대화에 개입하지 않도록, 조건을 설정하는 것은 표 5 를 참조하여 전술한 바 중복 설명은 생략한다.
일 실시예에서, 파라미터 각각의 가중치를 계산하여 조건이 조절될 수 있다. 파라미터의 가중치에 대해서는 도 9 및 10 에서 전술한 바 중복 설명은 생략한다.
본 개시에서 설명된 흐름도 및 구조도에서의 모든 단계 (동작) 및 모듈들이 필수적인 것은 아니고, 일부 단계들 또는 모듈들은 실제 요구에 따라 무시될 수 있다. 각 단계의 실행 순서는 고정적이지 않고 필요에 따라 조절될 수 있다. 각 모듈의 분할은 단지 채택된 기능의 설명을 원활히 하기 위함이다. 실제 구현에서, 모듈은 복수의 모듈들로 분할될 수 있고, 복수의 모듈들의 기능들은 동일한 모듈에 의해 구현될 수도 있다. 이러한 모듈들은 동일한 디바이스에 위치할 수 있으나, 상이한 디바이스들에 위치할 수 있다.
실시예들에 하드웨어 모듈들은 기계적 또는 전기적으로 구현될 수 있다. 예를 들어, 하드웨어 모듈은 특별히-디자인된 영구 회로 또는 로직 구성 (예를 들어, FPGA 또는 ASIC전용 프로세서) 을 포함하고 특정 작업을 수행할 수 있다. 하드웨어 모듈은 또한 프로그램 가능한 로직 구성 또는 일시적으로 소프트웨어에 의해 구성된 회로 (예를 들어, 범용 프로세서 또는 다른 프로그램 가능한 프로세서를 포함함) 를 포함할 수 있고, 이로써 특정 작업을 수행할 수 있다. 기계적인 모듈의 기계적인 수단 또는 전용 영구 회로, 또는 일시적으로 구성된 회로 (예를 들어 소프트웨어에 의해 설정됨) 의 구체적인 구현은, 비용과 시간을 고려하여 결정될 수 있다.
본 개시의 일 측면에 따르면, 기계로 하여금 일 실시예에 따른 음성 인터랙션 방법을 실행하게 하기 위한 인스트럭션들을 저장하는 기계-판독가능 저장 매체가 제공될 수 있다. 구체적으로, 저장 매체를 구비한 시스템 또는 장치가 제공될 수 있고, 실시예들 중 어느 하나의 기능들을 구현하는 소프트웨어 프로그램 코드가 저장되고, 시스템 또는 장치의 컴퓨터 (CPU 또는 MPU) 는 저장 매체에 저장된 프로그램 코드를 독출하여 실행할 수 있다. 게다가, 일부 또는 전부의 실제 동작들은 운영 체제 또는 프로그램 코드에 기초하여 인스트럭션들을 통한 컴퓨터상에서의 동작에 의해 수행될 수 있다. 저장 매체로부터 읽은 프로그램 코드를, 컴퓨터에 삽입된 확장 보드에 마련된 스토리지, 또는 컴퓨터에 연결된 확장 유닛에 마련된 스토리지에 기입하는 것 또한 가능하다. 그 후에, 확장 보드 또는 확장 유닛에 설치된 CPU 는 프로그램 코드의 인스트럭션들에 기초하여 실제 동작들의 일부 및 전부를 실행하고, 이로써, 실시예에서 설명된 기능들이 실현될 수 있다.
프로그램 코드를 제공하기 위한 저장 매체의 실시예들은, 플로피 디스크, 하드 디스크, 마그네토-광학 디스크, 광학 디스크 (예를 들어, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW, DVD + RW), 마그네틱 테이프, 비-휘발성 스토리지 카드 및 ROM. 또는, 프로그램 코드는 서버 컴퓨터 또는 클라우드로부터 커뮤니케이션 네트워크에 의해 다운로드될 수 있다.
여기서 사용된, "개략"은 "예시, 사례, 또는 묘사로서 제공되는" 것을 의미한다. "개략적"으로 여기에 묘사된 임의의 묘사 또는 구현은, 더 선호되거나 더 이점이 있는 기술방안으로 해석되지 말아야 한다. 도면을 간략히 하기 위해, 도면들은 개략적으로 본 발명의 상대적인 부분들을 도시하고, 제품으로서 실제 구조를 나타낸 것은 아니다. 게다가, 도면을 간단하고 이해하기 쉽게 만들기 위해, 동일한 구조 또는 기능을 갖는 단 하나의 구성은 도식적으로 묘사되거나 일부 도면에서 표시된다. 여기에서, "하나의"는 본 발명의 상대적인 부분들의 개수가 "오직 이것 하나", 및 "하나"로 한정되어 "하나 이상인" 상황을 배제하는 것을 의미하지 않는다. 여기에서, "위", "아래", "앞", "뒤", "좌", "우", "안", "밖" 등은 관련된 부분의 상대적인 위치적인 관계를 나타내기 위해 이용되고, 이러한 관련된 부분들의 절대적인 위치를 한정하지 않는다.
이상의 설명들은 본 발명의 바람직한 실시예들이고, 본 발명의 보호 범위를 한정하는 것으로 의도되지 않는다. 본 발명의 요지 내에서의 임의의 변형, 균등물, 및 개선은 본 개시의 보호 범위에 포함될 것이다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작될 수 있다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN: Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
실시예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될 수 있다. 실시예가 소프트웨어를 이용하여 구현되는 경우, 하나 이상의 프로그램(소프트웨어, 소프트웨어 모듈)이 이용될 수 있다. 프로그램은 컴퓨터 판독 가능 기록 매체에 포함될 수 있으나, 이에 제한되지 않는다. 프로그램은 컴퓨터 프로그램 제품에 포함될 수도 있다. 프로그램을 저장하는 컴퓨터 판독 가능 기록 매체가 컴퓨터 프로그램 제품에 포함될 수도 있다. 프로그램은, 전자 디바이스 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성될 수 있다. 하나 이상의 프로그램은 인스트럭션들을 포함할 수 있고, 인스트럭션들은 전자 디바이스에 포함된 하나 이상의 프로세서에 의해 실행되어, 전자 디바이스로 하여금 실시예들에 따른 방법들을 실행하게 할 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈을 포함하며, 임의의 정보 전달 매체를 포함한다. 또한, 일부 실시예는 컴퓨터에 의해 실행되는 컴퓨터 프로그램과 같은 컴퓨터에 의해 실행가능한 인스트럭션을 포함하는 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품으로도 구현될 수 있다. 컴퓨터가 읽을 수 있는 복수의 기록 매체가 네트워크로 연결된 컴퓨터 시스템들에 분산되어 있을 수 있으며, 분산된 기록 매체들에 저장된 데이터, 예를 들면 프로그램의 인스트럭션들 및 코드가 적어도 하나의 컴퓨터에 의해 실행될 수 있다.
도면들에 도시된 다양한 요소들의 기능들은 적절한 소프트웨어와 관련되어 소프트웨어를 실행할 수 있는 하드웨어뿐만 아니라 전용 하드웨어의 이용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 이런 기능은 단일 전용 프로세서, 단일 공유 프로세서, 또는 일부가 공유될 수 있는 복수의 개별 프로세서에 의해 제공될 수 있다. 또한, 용어 "프로세서" 또는 "제어부"의 명시적 이용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 지칭하는 것으로 해석되지 말아야 하며, 제한 없이, 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 및 비휘발성 저장 디바이스를 묵시적으로 포함할 수 있다.
실시예에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 단계들은 적당한 순서로 행해질 수 있다. 단계들의 기재 순서에 따라 실시예가 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어 (예들 들어, 등등) 의 사용은 단순히 실시예들을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 설명된 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다.
이상에서 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속한다.

Claims (20)

  1. 적어도 하나의 인스트럭션을 저장하도록 구성된 메모리; 및
    적어도 하나의 프로세서를 포함하는 전자 디바이스로서, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써:
    적어도 하나의 사용자의 대화로부터 음성 데이터를 획득하고;
    상기 음성 데이터를 텍스트 데이터로 변환하고;
    상기 음성 데이터 및 상기 텍스트 데이터 중 적어도 하나에 기초하여, 상기 대화의 특성을 나타내기 위한 적어도 하나의 파라미터를 결정하고;
    상기 결정된 적어도 하나의 파라미터에 기초하여, 상기 대화로의 개입을 트리거링하기 위한 조건을 조절하고;
    상기 조절된 조건이 충족될 때, 상기 텍스트 데이터에 기초하여 피드백을 출력하도록 구성되는, 전자 디바이스.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 파라미터는 상기 대화의 시나리오를 나타내는 대화 시나리오 파라미터를 포함하고,
    상기 조건은 상기 대화 시나리오 파라미터에 따라 조절되는, 전자 디바이스.
  3. 제 2 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 대화 시나리오 파라미터에 따라 상기 대화 중 상기 조건을 조절하도록 더 구성되는, 전자 디바이스.
  4. 제 1 항에 있어서,
    상기 조건은 임계치를 포함하고,
    상기 임계치의 크기는 상기 결정된 적어도 하나의 파라미터에 따라 조절되는, 전자 디바이스.
  5. 제 1 항에 있어서,
    상기 조건은 대화 중단 시간 임계치 및 대화 교류 빈도 임계치 중 적어도 하나를 포함하는, 전자 디바이스.
  6. 제 5 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 결정된 적어도 하나의 파라미터에 따라 상기 대화 중 상기 대화 중단 시간 임계치 및 상기 대화 교류 빈도 임계치를 반비례하게 (inversely) 조절하도록 더 구성되는, 전자 디바이스.
  7. 제 5 항에 있어서,
    상기 대화 중 대화 중단 시간이 상기 대화 중단 시간 임계치보다 커질 때, 또는 상기 대화 중 대화 교류 빈도가 상기 대화 교류 빈도 임계치보다 작아질 때, 상기 피드백이 출력되는, 전자 디바이스.
  8. 제 1 항에 있어서,
    상기 적어도 하나의 파라미터는, 상기 대화에 참여하는 상기 적어도 하나의 사용자의 특성을 나타내는 사용자 특성 파라미터를 포함하고,
    상기 적어도 하나의 프로세서는, 상기 사용자 특성 파라미터에 따라 상기 대화 중 상기 조건을 조절하도록 더 구성되는, 전자 디바이스.
  9. 제 8 항에 있어서,
    상기 사용자 특성 파라미터는, 사용자의 말의 템포에 기초하여 결정되는, 전자 디바이스.
  10. 제 8 항에 있어서,
    상기 사용자 특성 파라미터는, 단위 시간 당 사용자의 발언의 양에 기초하여 결정되는, 전자 디바이스.
  11. 제 8 항에 있어서,
    상기 조건은 대화 중단 시간 임계치 및 대화 교류 빈도 임계치를 포함하고,
    상기 적어도 하나의 프로세서는, 사용자의 말의 템포가 더 빠르거나, 단위 시간 당 상기 사용자의 발언의 양이 더 많을수록, 상기 적어도 하나의 프로세서는 상기 대화 중단 시간 임계치를 감소시키고, 상기 대화 교류 빈도 임계치를 증가시키도록 더 구성되는, 전자 디바이스.
  12. 제 1 항에 있어서,
    상기 적어도 하나의 파라미터는 상기 적어도 하나의 사용자의 수를 나타내는 사용자수 파라미터를 포함하고,
    상기 조건은 상기 사용자수 파라미터에 따라 달라지는, 전자 디바이스.
  13. 제 12 항에 있어서,
    상기 조건은 대화 중단 시간 임계치 및 대화 교류 빈도 임계치를 포함하고,
    상기 적어도 하나의 프로세서는, 상기 사용자수 파라미터가 커질수록, 상기 대화 중단 시간 임계치를 감소시키고 상기 대화 교류 빈도 임계치를 증가시키도록 더 구성되는, 전자 디바이스.
  14. 제 1 항에 있어서,
    상기 적어도 하나의 파라미터는 상기 적어도 하나의 사용자의 감정 상태를 나타내는 사용자 감정 파라미터를 포함하고,
    상기 적어도 하나의 프로세서는, 상기 사용자 감정 파라미터에 따라 상기 대화 중 상기 조건을 조절하도록 더 구성되는, 전자 디바이스.
  15. 제 14 항에 있어서,
    상기 조건은 대화 중단 시간 임계치 및 대화 교류 빈도 임계치를 포함하고,
    상기 적어도 하나의 프로세서는, 상기 사용자 감정 파라미터가 커질수록, 상기 대화 중단 시간 임계치를 감소시키고 상기 대화 교류 빈도 임계치를 증가시키도록 더 구성되는, 전자 디바이스.
  16. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 결정된 적어도 하나의 파라미터에 기초하여 상기 조건을 조절하여 상기 대화로의 개입을 지연시키도록 더 구성되는, 전자 디바이스.
  17. 제 16 항에 있어서,
    상기 조건은 대화 중단 시간 임계치 및 대화 교류 빈도 임계치를 포함하고,
    상기 대화로의 개입을 지연시키기 위해, 상기 대화 중단 시간 임계치는 증가하고, 상기 대화 교류 빈도 임계치는 감소하는, 전자 디바이스.
  18. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는 상기 적어도 하나의 파라미터 각각의 가중치를 계산하도록 더 구성되고, 상기 가중치에 기초하여 상기 조건이 조절되는, 전자 디바이스.
  19. 적어도 하나의 사용자의 대화로부터 음성 데이터를 획득하는 단계;
    상기 음성 데이터를 텍스트 데이터로 변환하는 단계;
    상기 음성 데이터 및 상기 텍스트 데이터 중 적어도 하나에 기초하여, 상기 대화의 특성을 나타내기 위한 적어도 하나의 파라미터를 결정하는 단계;
    상기 결정된 적어도 하나의 파라미터에 기초하여, 상기 대화로의 개입을 트리거링하기 위한 조건을 조절하는 단계; 및
    상기 조절된 조건이 충족될 때, 상기 텍스트 데이터에 기초하여 피드백을 출력하는 단계를 포함하는, 방법.
  20. 제 19 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
KR1020200166059A 2019-12-04 2020-12-01 음성 사용자 인터페이스 KR20210070213A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2020/017706 WO2021112642A1 (en) 2019-12-04 2020-12-04 Voice user interface
US17/112,053 US11594224B2 (en) 2019-12-04 2020-12-04 Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911225855.3A CN110827821B (zh) 2019-12-04 2019-12-04 一种语音交互装置、方法和计算机可读存储介质
CN201911225855.3 2019-12-04

Publications (1)

Publication Number Publication Date
KR20210070213A true KR20210070213A (ko) 2021-06-14

Family

ID=69543697

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200166059A KR20210070213A (ko) 2019-12-04 2020-12-01 음성 사용자 인터페이스

Country Status (2)

Country Link
KR (1) KR20210070213A (ko)
CN (1) CN110827821B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146073A (zh) * 2022-07-08 2022-10-04 华中师范大学 一种跨空间语义知识注入的试题知识点标记方法及应用

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785292B (zh) * 2020-05-19 2023-03-31 厦门快商通科技股份有限公司 一种基于图像识别的语音混响强度估计方法、装置及存储介质
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
CN111755003B (zh) * 2020-06-23 2023-10-31 北京联想软件有限公司 语音交互实现方法、装置及电子设备
CN112017629B (zh) * 2020-07-15 2021-12-21 马上消费金融股份有限公司 语音机器人的会话控制方法及设备、存储介质
CN112153223B (zh) * 2020-10-23 2021-12-14 北京蓦然认知科技有限公司 一种语音助手识别并执行被叫用户指令的方法及语音助手
CN112148864B (zh) * 2020-11-25 2021-05-28 深圳追一科技有限公司 语音交互方法、装置、计算机设备和存储介质
CN112651334B (zh) * 2020-12-25 2023-05-23 三星电子(中国)研发中心 机器人视频交互方法和系统
CN113053388B (zh) * 2021-03-09 2023-08-01 北京百度网讯科技有限公司 语音交互方法、装置、设备和存储介质
CN115146066A (zh) * 2022-09-05 2022-10-04 深圳市华付信息技术有限公司 人机交互方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5149737B2 (ja) * 2008-08-20 2013-02-20 株式会社ユニバーサルエンターテインメント 自動会話システム、並びに会話シナリオ編集装置
JP5152314B2 (ja) * 2010-12-16 2013-02-27 沖電気工業株式会社 対話管理装置、方法及びプログラム、並びに意識抽出システム
US9596349B1 (en) * 2015-06-29 2017-03-14 State Farm Mutual Automobile Insurance Company Voice and speech recognition for call center feedback and quality assurance
WO2017201666A1 (zh) * 2016-05-24 2017-11-30 深圳市赛亿科技开发有限公司 用于电子社交软件消息回复提醒的方法及其装置
JP6696923B2 (ja) * 2017-03-03 2020-05-20 国立大学法人京都大学 音声対話装置、その処理方法及びプログラム
JP6998517B2 (ja) * 2017-06-14 2022-01-18 パナソニックIpマネジメント株式会社 発話継続判定方法、発話継続判定装置およびプログラム
CN110085262A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情绪交互方法、计算机设备和计算机可读存储介质
KR102517228B1 (ko) * 2018-03-14 2023-04-04 삼성전자주식회사 사용자의 입력에 대한 외부 전자 장치의 응답 시간에 기반하여 지정된 기능을 제어하는 전자 장치 및 그의 방법
CN108874895B (zh) * 2018-05-22 2021-02-09 北京小鱼在家科技有限公司 交互信息推送方法、装置、计算机设备及存储介质
CN109616116B (zh) * 2019-01-10 2023-02-03 上海言通网络科技有限公司 通话系统及其通话方法
CN110517685B (zh) * 2019-09-25 2021-10-08 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146073A (zh) * 2022-07-08 2022-10-04 华中师范大学 一种跨空间语义知识注入的试题知识点标记方法及应用

Also Published As

Publication number Publication date
CN110827821B (zh) 2022-04-12
CN110827821A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
KR20210070213A (ko) 음성 사용자 인터페이스
US11594224B2 (en) Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds
US12039975B2 (en) Dialog management for multiple users
US11854540B2 (en) Utilizing machine learning models to generate automated empathetic conversations
US20210398525A1 (en) Multi-assistant natural language input processing
WO2020135194A1 (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
US11545174B2 (en) Emotion detection using speaker baseline
Lee et al. Study on emotion recognition and companion Chatbot using deep neural network
US20240153489A1 (en) Data driven dialog management
US11574637B1 (en) Spoken language understanding models
US11132994B1 (en) Multi-domain dialog state tracking
KR101984283B1 (ko) 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체
Lakomkin et al. Emorl: continuous acoustic emotion classification using deep reinforcement learning
US20230377574A1 (en) Word selection for natural language interface
US20240331686A1 (en) Relevant context determination
US20240185846A1 (en) Multi-session context
Hoque et al. Robust recognition of emotion from speech
US20240095987A1 (en) Content generation
US11430435B1 (en) Prompts for user feedback
Zhang et al. Deep learning based emotion recognition from Chinese speech
Andayani Investigating the Impacts of LSTM-Transformer on Classification Performance of Speech Emotion Recognition
US11804225B1 (en) Dialog management system
US11955122B1 (en) Detecting machine-outputted audio
Guha Detecting User Emotions From Audio Conversations With the Smart Assistants
KR102635031B1 (ko) 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스 제공 방법, 장치 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination